Fugu-MT 論文翻訳(概要): Improving 2D Human Pose Estimation across Unseen Camera Views with Synthetic Data

論文の概要: Improving 2D Human Pose Estimation across Unseen Camera Views with Synthetic Data

arxiv url: http://arxiv.org/abs/2307.06737v1
Date: Thu, 13 Jul 2023 13:17:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-14 14:39:16.173057
Title: Improving 2D Human Pose Estimation across Unseen Camera Views with Synthetic Data
Title（参考訳）: 合成データを用いた未認識カメラの2次元ポーズ推定の改善
Authors: Miroslav Purkr\'abek, Ji\v{r}\'i Matas
Abstract要約: 本稿では、ポーズとビューを包括的に制御した合成データ生成手法(RePoGen, RarE POses GENerator)を提案する。実画像の新しいデータセットの実験では、COCOにRePoGenデータを追加することは、トップビューのポーズ推定に対する以前の試みを上回っている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Human Pose Estimation is a thoroughly researched problem; however, most datasets focus on the side and front-view scenarios. We address the limitation by proposing a novel approach that tackles the challenges posed by extreme viewpoints and poses. We introduce a new method for synthetic data generation - RePoGen, RarE POses GENerator - with comprehensive control over pose and view to augment the COCO dataset. Experiments on a new dataset of real images show that adding RePoGen data to the COCO surpasses previous attempts to top-view pose estimation and significantly improves performance on the bottom-view dataset. Through an extensive ablation study on both the top and bottom view data, we elucidate the contributions of methodological choices and demonstrate improved performance. The code and the datasets are available on the project website.
Abstract（参考訳）: 人間のポーズ推定は徹底的に研究されている問題であるが、ほとんどのデータセットは、サイドとフロントビューのシナリオに焦点を当てている。我々は、極端な視点や姿勢によって生じる課題に取り組む新しいアプローチを提案することで、この制限に対処する。本稿では,新しい合成データ生成レポゲン法であるレア・ポーズ生成法を紹介し,cocoデータセットの拡張のためにポーズとビューを包括的に制御する。実画像の新しいデータセットの実験によると、COCOにRePoGenデータを追加することは、トップビューのポーズ推定に対する以前の試みを超越し、ボトムビューデータセットのパフォーマンスが大幅に向上する。上部データと底面データの両方について広範なアブレーション研究を行い,方法論的選択の寄与を解明し,性能の向上を実証した。コードとデータセットはプロジェクトのWebサイトで公開されている。

関連論文リスト

Human Body Restoration with One-Step Diffusion Model and A New Benchmark [74.66514054623669]
本稿では,高品質な自動収穫・フィルタリング(HQ-ACF)パイプラインを提案する。このパイプラインは、既存のオブジェクト検出データセットやその他のラベル付けされていないイメージを活用して、高品質な人間の画像を自動的にトリミングし、フィルタリングする。また,人体修復のための新しい1段階拡散モデルであるemphOSDHumanを提案する。
論文参考訳（メタデータ） (2025-02-03T14:48:40Z)
Generalizable Human Gaussians from Single-View Image [52.100234836129786]
単視点一般化可能なHuman Gaussian Model(HGM)を導入する。提案手法では, 粗い予測されたヒトガウスの背景画像を改良するために, ControlNet を用いる。非現実的な人間のポーズや形状の潜在的な発生を緩和するために、SMPL-Xモデルからの人間の先行を二重分岐として組み込む。
論文参考訳（メタデータ） (2024-06-10T06:38:11Z)
Diversifying Human Pose in Synthetic Data for Aerial-view Human Detection [16.42439177494448]
SynPoseDivは、既存の合成データセット内で人間のポーズを多様化する新しいフレームワークである。拡散ベースのポーズジェネレータを使用して、リアルで多様な3Dポーズを生成する。ソース・ツー・ターゲット・イメージ・トランスレータを通じて、新しいポーズで仮想文字の画像を生成する。実験により、SynPoseDivは複数の航空ビュー人間検出ベンチマークにおける検出精度を大幅に向上することが示された。
論文参考訳（メタデータ） (2024-05-24T21:08:27Z)
WheelPose: Data Synthesis Techniques to Improve Pose Estimation Performance on Wheelchair Users [5.057643544417776]
既存のポーズ推定モデルは、トレーニングデータに表現力の欠如があるため、車椅子利用者にはあまり役に立たない。データ収集におけるこの相違に対処するためのデータ合成パイプラインを提案する。我々のパイプラインは,Unityゲームエンジンでシミュレーションされたモーションキャプチャデータとモーション生成出力を用いて,車椅子利用者の合成データを生成する。
論文参考訳（メタデータ） (2024-04-25T22:17:32Z)
Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文参考訳（メタデータ） (2024-03-23T22:32:06Z)
LiCamPose: Combining Multi-View LiDAR and RGB Cameras for Robust Single-frame 3D Human Pose Estimation [31.651300414497822]
LiCamPoseは、マルチビューRGBとスパースポイントクラウド情報を統合して、単一のフレームで堅牢な3Dポーズを推定するパイプラインである。 LiCamPoseは、2つの公開データセット、1つの合成データセット、1つの挑戦的な自己収集データセットを含む4つのデータセットで評価されている。
論文参考訳（メタデータ） (2023-12-11T14:30:11Z)
Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文参考訳（メタデータ） (2023-11-10T18:38:14Z)
Domain-Adaptive Full-Face Gaze Estimation via Novel-View-Synthesis and Feature Disentanglement [12.857137513211866]
本稿では、教師なしドメイン適応のためのトレーニングデータ合成と視線推定モデルからなる効果的なモデルトレーニングパイプラインを提案する。提案したデータ合成は、単一画像の3D再構成を利用して、3次元の顔形状データセットを必要とせずに、ソース領域から頭部ポーズの範囲を広げる。本稿では、視線関連特徴を分離し、背景アグリゲーション整合性損失を導入し、合成音源領域の特性を生かしたディエンタングリングオートエンコーダネットワークを提案する。
論文参考訳（メタデータ） (2023-05-25T15:15:03Z)
Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文参考訳（メタデータ） (2022-07-17T07:05:39Z)
Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。両手法の有効性とロバスト性を実証的に示す。我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文参考訳（メタデータ） (2022-05-12T17:03:57Z)
Learning-by-Novel-View-Synthesis for Full-Face Appearance-based 3D Gaze Estimation [8.929311633814411]
本研究は,単眼の3次元顔再構成に基づく視線推定訓練データを合成するための新しいアプローチについて検討する。マルチビュー再構成、フォトリアリスティックCGモデル、または生成ニューラルネットワークを用いた以前の研究とは異なり、我々のアプローチは既存のトレーニングデータの頭部ポーズ範囲を操作および拡張することができる。
論文参考訳（メタデータ） (2022-01-20T00:29:45Z)
Occlusion-Invariant Rotation-Equivariant Semi-Supervised Depth Based Cross-View Gait Pose Estimation [40.50555832966361]
閉塞不変な半教師あり学習フレームワークを用いたクロスビュー一般化のための新しい手法を提案する。本モデルは,1つの視点からの実世界データと,複数の視点からの非競合合成データを用いて訓練した。他の目に見えないすべてのビューから、現実世界のデータをうまく一般化することができる。
論文参考訳（メタデータ） (2021-09-03T09:39:05Z)
AdaFuse: Adaptive Multiview Fusion for Accurate Human Pose Estimation in the Wild [77.43884383743872]
本稿では,アダプティブなマルチビュー融合手法であるAdaFuseについて述べる。我々は、Human3.6M、Total Capture、CMU Panopticの3つの公開データセットに対するアプローチを広く評価した。また,大規模合成データセットOcclusion-Personを作成し,咬合関節の数値評価を行う。
論文参考訳（メタデータ） (2020-10-26T03:19:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。