Fugu-MT 論文翻訳(概要): Towards Robust and Smooth 3D Multi-Person Pose Estimation from Monocular Videos in the Wild

論文の概要: Towards Robust and Smooth 3D Multi-Person Pose Estimation from Monocular Videos in the Wild

arxiv url: http://arxiv.org/abs/2309.08644v1
Date: Fri, 15 Sep 2023 06:17:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 20:13:19.859009
Title: Towards Robust and Smooth 3D Multi-Person Pose Estimation from Monocular Videos in the Wild
Title（参考訳）: 野生の単眼映像からのロバスト・スムース3次元マルチパーソンポス推定に向けて
Authors: Sungchan Park, Eunyi You, Inhoe Lee, Joonseok Lee
Abstract要約: POTR-3Dは3DMPPEのためのシーケンスツーシーケンス2D-to-3Dリフトモデルである。多様な見えないビューに強く一般化し、重いオクルージョンに対するポーズを強く回復し、より自然でスムーズなアウトプットを確実に生成する。
参考スコア（独自算出の注目度）: 10.849750765175754
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D pose estimation is an invaluable task in computer vision with various practical applications. Especially, 3D pose estimation for multi-person from a monocular video (3DMPPE) is particularly challenging and is still largely uncharted, far from applying to in-the-wild scenarios yet. We pose three unresolved issues with the existing methods: lack of robustness on unseen views during training, vulnerability to occlusion, and severe jittering in the output. As a remedy, we propose POTR-3D, the first realization of a sequence-to-sequence 2D-to-3D lifting model for 3DMPPE, powered by a novel geometry-aware data augmentation strategy, capable of generating unbounded data with a variety of views while caring about the ground plane and occlusions. Through extensive experiments, we verify that the proposed model and data augmentation robustly generalizes to diverse unseen views, robustly recovers the poses against heavy occlusions, and reliably generates more natural and smoother outputs. The effectiveness of our approach is verified not only by achieving the state-of-the-art performance on public benchmarks, but also by qualitative results on more challenging in-the-wild videos. Demo videos are available at https://www.youtube.com/@potr3d.
Abstract（参考訳）: 3次元ポーズ推定は、様々な実用的応用を伴うコンピュータビジョンにおいて貴重なタスクである。特に、単眼ビデオ(3dmppe)から多人数の3dポーズ推定は特に困難であり、まだ未解決のシナリオにはまだ適用されていない。既存の手法では未解決の3つの問題,訓練中の未確認のビューに対する堅牢性の欠如,オクルージョンに対する脆弱性,そして出力の激しいジッタリングである。本稿では,3DMPPEの時系列2D-to-3Dリフトモデルの最初の実現法であるPOTR-3Dを提案する。広範な実験により,提案するモデルとデータ拡張が多様な非知覚ビューにロバストに一般化し,重い咬合に対するポーズをロバストに回復し,より自然でスムースなアウトプットを確実に生成できることを確認した。本手法の有効性は,公開ベンチマークで最先端のパフォーマンスを実現するだけでなく,より困難な動画における質的結果によって検証される。デモビデオはhttps://www.youtube.com/@potr3d。

関連論文リスト

PAD3R: Pose-Aware Dynamic 3D Reconstruction from Casual Videos [25.79551555341372]
PAD3Rは、カジュアルにキャプチャーされたモノクロビデオから変形可能な3Dオブジェクトを再構成する方法である。その中心となるアプローチは、事前訓練された画像から3Dモデルによって教師される、パーソナライズされたオブジェクト中心のポーズ推定器を訓練する。 PAD3Rは、生成前の先行と異なるレンダリングを組み合わせることで、カテゴリーに依存しない方法で、高忠実で明瞭なオブジェクトの3D表現を再構築する。
論文参考訳（メタデータ） (2025-09-29T17:59:33Z)
Toward a Real-Time Framework for Accurate Monocular 3D Human Pose Estimation with Geometric Priors [0.0]
リアルタイム2Dキーポイント検出と幾何学的2D-to-3Dリフトを組み合わせたフレームワークを提案する。特殊なハードウェアを必要とせずにモノクロ画像から高速でパーソナライズされた正確な3次元ポーズ推定を実現する方法について論じる。
論文参考訳（メタデータ） (2025-07-21T08:18:23Z)
PLOT: Pseudo-Labeling via Video Object Tracking for Scalable Monocular 3D Object Detection [35.524943073010675]
モノクロ3Dオブジェクト検出(M3OD)は、高アノテーションコストと固有の2Dから3Dの曖昧さに起因するデータの不足により、長年にわたって課題に直面してきた。ビデオデータのみを使用し、マルチビュー設定、追加センサー、カメラポーズ、ドメイン固有のトレーニングを必要とせず、より堅牢な疑似ラベルフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-03T07:46:39Z)
F3D-Gaus: Feed-forward 3D-aware Generation on ImageNet with Cycle-Aggregative Gaussian Splatting [35.625593119642424]
本稿では,モノケプラーデータセットから3次元認識を一般化する問題に取り組む。画素整列型ガウススプラッティングに基づく新しいフィードフォワードパイプラインを提案する。また,学習した3次元表現において,クロスビューの一貫性を強制する自己教師付きサイクル集約的制約を導入する。
論文参考訳（メタデータ） (2025-01-12T04:44:44Z)
LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors [107.83398512719981]
シングルイメージの3D再構成は、コンピュータビジョンの根本的な課題である。遅延ビデオ拡散モデルの最近の進歩は、大規模ビデオデータから学ぶ有望な3D事前情報を提供する。本稿では,LVDMの生成先行情報を効果的にリリースするフレームワークであるLiftImage3Dを提案する。
論文参考訳（メタデータ） (2024-12-12T18:58:42Z)
UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文参考訳（メタデータ） (2024-04-23T00:18:00Z)
Two Views Are Better than One: Monocular 3D Pose Estimation with Multiview Consistency [0.493599216374976]
本稿では,2次元の教師のみによるトレーニングデータの追加を可能にするために,新たな損失関数であるマルチビュー整合性を提案する。実験の結果,2つの視点を90度にオフセットすれば良好な性能が得られることがわかった。本研究は3次元ポーズ推定におけるドメイン適応の新たな可能性を導入し,特定のアプリケーション向けにモデルをカスタマイズするための実用的で費用対効果の高いソリューションを提供する。
論文参考訳（メタデータ） (2023-11-21T08:21:55Z)
On Triangulation as a Form of Self-Supervision for 3D Human Pose Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文参考訳（メタデータ） (2022-03-29T19:11:54Z)
MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文参考訳（メタデータ） (2021-08-10T18:39:56Z)
Exploring Severe Occlusion: Multi-Person 3D Pose Estimation with Gated Convolution [34.301501457959056]
本稿では,2次元関節を3次元に変換するために,ゲート型畳み込みモジュールを用いた時間回帰ネットワークを提案する。また, 正規化ポーズを大域軌跡に変換するために, 単純かつ効果的な局所化手法も実施した。提案手法は,最先端の2D-to-3Dポーズ推定法よりも優れている。
論文参考訳（メタデータ） (2020-10-31T04:35:24Z)
Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。 3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文参考訳（メタデータ） (2020-04-09T07:55:01Z)
Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data [77.34069717612493]
本稿では,100fpsの単眼手形状とポーズ推定の新たな手法を提案する。これは、利用可能なハンドトレーニングデータのソースをすべて活用できるように設計された、新しい学習ベースのアーキテクチャによって実現されている。 3次元手関節検出モジュールと逆キネマティクスモジュールを備えており、3次元手関節位置だけでなく、1つのフィードフォワードパスでそれらを関節回転にマッピングする。
論文参考訳（メタデータ） (2020-03-21T03:51:54Z)
Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。提案手法を2つの大規模データセット上で評価する。
論文参考訳（メタデータ） (2020-03-17T08:47:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。