論文の概要: Towards Robust and Smooth 3D Multi-Person Pose Estimation from Monocular
Videos in the Wild
- arxiv url: http://arxiv.org/abs/2309.08644v1
- Date: Fri, 15 Sep 2023 06:17:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 20:13:19.859009
- Title: Towards Robust and Smooth 3D Multi-Person Pose Estimation from Monocular
Videos in the Wild
- Title(参考訳): 野生の単眼映像からのロバスト・スムース3次元マルチパーソンポス推定に向けて
- Authors: Sungchan Park, Eunyi You, Inhoe Lee, Joonseok Lee
- Abstract要約: POTR-3Dは3DMPPEのためのシーケンスツーシーケンス2D-to-3Dリフトモデルである。
多様な見えないビューに強く一般化し、重いオクルージョンに対するポーズを強く回復し、より自然でスムーズなアウトプットを確実に生成する。
- 参考スコア(独自算出の注目度): 10.849750765175754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D pose estimation is an invaluable task in computer vision with various
practical applications. Especially, 3D pose estimation for multi-person from a
monocular video (3DMPPE) is particularly challenging and is still largely
uncharted, far from applying to in-the-wild scenarios yet. We pose three
unresolved issues with the existing methods: lack of robustness on unseen views
during training, vulnerability to occlusion, and severe jittering in the
output. As a remedy, we propose POTR-3D, the first realization of a
sequence-to-sequence 2D-to-3D lifting model for 3DMPPE, powered by a novel
geometry-aware data augmentation strategy, capable of generating unbounded data
with a variety of views while caring about the ground plane and occlusions.
Through extensive experiments, we verify that the proposed model and data
augmentation robustly generalizes to diverse unseen views, robustly recovers
the poses against heavy occlusions, and reliably generates more natural and
smoother outputs. The effectiveness of our approach is verified not only by
achieving the state-of-the-art performance on public benchmarks, but also by
qualitative results on more challenging in-the-wild videos. Demo videos are
available at https://www.youtube.com/@potr3d.
- Abstract(参考訳): 3次元ポーズ推定は、様々な実用的応用を伴うコンピュータビジョンにおいて貴重なタスクである。
特に、単眼ビデオ(3dmppe)から多人数の3dポーズ推定は特に困難であり、まだ未解決のシナリオにはまだ適用されていない。
既存の手法では未解決の3つの問題,訓練中の未確認のビューに対する堅牢性の欠如,オクルージョンに対する脆弱性,そして出力の激しいジッタリングである。
本稿では,3DMPPEの時系列2D-to-3Dリフトモデルの最初の実現法であるPOTR-3Dを提案する。
広範な実験により,提案するモデルとデータ拡張が多様な非知覚ビューにロバストに一般化し,重い咬合に対するポーズをロバストに回復し,より自然でスムースなアウトプットを確実に生成できることを確認した。
本手法の有効性は,公開ベンチマークで最先端のパフォーマンスを実現するだけでなく,より困難な動画における質的結果によって検証される。
デモビデオはhttps://www.youtube.com/@potr3d。
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Two Views Are Better than One: Monocular 3D Pose Estimation with Multiview Consistency [0.493599216374976]
本稿では,2次元の教師のみによるトレーニングデータの追加を可能にするために,新たな損失関数であるマルチビュー整合性を提案する。
実験の結果,2つの視点を90度にオフセットすれば良好な性能が得られることがわかった。
本研究は3次元ポーズ推定におけるドメイン適応の新たな可能性を導入し,特定のアプリケーション向けにモデルをカスタマイズするための実用的で費用対効果の高いソリューションを提供する。
論文 参考訳(メタデータ) (2023-11-21T08:21:55Z) - On Triangulation as a Form of Self-Supervision for 3D Human Pose
Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。
最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。
本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:11:54Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - Exploring Severe Occlusion: Multi-Person 3D Pose Estimation with Gated
Convolution [34.301501457959056]
本稿では,2次元関節を3次元に変換するために,ゲート型畳み込みモジュールを用いた時間回帰ネットワークを提案する。
また, 正規化ポーズを大域軌跡に変換するために, 単純かつ効果的な局所化手法も実施した。
提案手法は,最先端の2D-to-3Dポーズ推定法よりも優れている。
論文 参考訳(メタデータ) (2020-10-31T04:35:24Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data [77.34069717612493]
本稿では,100fpsの単眼手形状とポーズ推定の新たな手法を提案する。
これは、利用可能なハンドトレーニングデータのソースをすべて活用できるように設計された、新しい学習ベースのアーキテクチャによって実現されている。
3次元手関節検出モジュールと逆キネマティクスモジュールを備えており、3次元手関節位置だけでなく、1つのフィードフォワードパスでそれらを関節回転にマッピングする。
論文 参考訳(メタデータ) (2020-03-21T03:51:54Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。