論文の概要: Toward a Real-Time Framework for Accurate Monocular 3D Human Pose Estimation with Geometric Priors
- arxiv url: http://arxiv.org/abs/2507.16850v1
- Date: Mon, 21 Jul 2025 08:18:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.686026
- Title: Toward a Real-Time Framework for Accurate Monocular 3D Human Pose Estimation with Geometric Priors
- Title(参考訳): 幾何学的優先順位を用いた高精度な単眼3次元人物位置推定のためのリアルタイムフレームワークの実現に向けて
- Authors: Mohamed Adjel,
- Abstract要約: リアルタイム2Dキーポイント検出と幾何学的2D-to-3Dリフトを組み合わせたフレームワークを提案する。
特殊なハードウェアを必要とせずにモノクロ画像から高速でパーソナライズされた正確な3次元ポーズ推定を実現する方法について論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D human pose estimation remains a challenging and ill-posed problem, particularly in real-time settings and unconstrained environments. While direct imageto-3D approaches require large annotated datasets and heavy models, 2D-to-3D lifting offers a more lightweight and flexible alternative-especially when enhanced with prior knowledge. In this work, we propose a framework that combines real-time 2D keypoint detection with geometry-aware 2D-to-3D lifting, explicitly leveraging known camera intrinsics and subject-specific anatomical priors. Our approach builds on recent advances in self-calibration and biomechanically-constrained inverse kinematics to generate large-scale, plausible 2D-3D training pairs from MoCap and synthetic datasets. We discuss how these ingredients can enable fast, personalized, and accurate 3D pose estimation from monocular images without requiring specialized hardware. This proposal aims to foster discussion on bridging data-driven learning and model-based priors to improve accuracy, interpretability, and deployability of 3D human motion capture on edge devices in the wild.
- Abstract(参考訳): 単眼の3Dポーズ推定は、特にリアルタイム設定や制約のない環境では困難で不適切な問題である。
直接画像3Dアプローチには、大きな注釈付きデータセットと重いモデルが必要であるが、2D-to-3Dリフトは、特に事前の知識で強化された場合、より軽量で柔軟な代替手段を提供する。
本研究では,実時間2次元キーポイント検出とジオメトリ対応の2D-to-3Dリフトを組み合わせたフレームワークを提案する。
提案手法は,MoCapと合成データセットから大規模で高機能な2D-3Dトレーニングペアを生成するための,自己校正と生体力学的に制約された逆運動学の最近の進歩に基づいている。
特殊なハードウェアを必要とせずにモノクロ画像から高速でパーソナライズされた正確な3次元ポーズ推定を実現する方法について論じる。
本提案は,エッジデバイス上での3次元モーションキャプチャの精度,解釈可能性,展開性を改善するために,データ駆動学習とモデルに基づく事前学習のブリッジ化に関する議論を促進することを目的とする。
関連論文リスト
- 3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection [58.78881632019072]
最初のエンドツーエンド3Dモノクロオープンセットオブジェクト検出器(3D-MOOD)を紹介する。
私たちはオープンセットの2D検出を設計した3Dバウンディングボックスヘッドを通して3D空間に持ち上げます。
対象クエリを事前に幾何学的に条件付けし,様々な場面で3次元推定の一般化を克服する。
論文 参考訳(メタデータ) (2025-07-31T13:56:41Z) - E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z) - Zero-Shot Human-Object Interaction Synthesis with Multimodal Priors [31.277540988829976]
本稿では,現在限定されている3次元HOIデータセットのエンドツーエンドトレーニングに頼ることなく,新しいゼロショットHOI合成フレームワークを提案する。
我々は、事前訓練された人間のポーズ推定モデルを用いて、人間のポーズを抽出し、一般化可能なカテゴリレベルの6-DoF推定手法を導入し、2次元HOI画像からオブジェクトポーズを求める。
論文 参考訳(メタデータ) (2025-03-25T23:55:47Z) - Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation [30.744137117668643]
Lift3Dは、ロバストな3D操作ポリシーを構築するために、暗黙的で明示的な3Dロボット表現で2Dファンデーションモデルを強化するフレームワークである。
実験では、Lift3Dはいくつかのシミュレーションベンチマークや実世界のシナリオで、最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-11-27T18:59:52Z) - Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - Hybrid 3D Human Pose Estimation with Monocular Video and Sparse IMUs [15.017274891943162]
モノクロビデオからの時間的3Dポーズ推定は、人間中心のコンピュータビジョンにおいて難しい課題である。
情報ソースを補完するために慣性センサが導入された。
物理的に合理的な3Dポーズを生成するために、異種センサデータを統合することは依然として困難である。
論文 参考訳(メタデータ) (2024-04-27T09:02:42Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - CameraPose: Weakly-Supervised Monocular 3D Human Pose Estimation by
Leveraging In-the-wild 2D Annotations [25.05308239278207]
一つの画像から3次元のポーズ推定を行うための弱教師付きフレームワークであるCameraPoseを提案する。
カメラパラメータブランチを追加することで、Wildの2Dアノテーションをパイプラインに投入して、トレーニングの多様性を高めることができます。
また、2次元ポーズ推定器によって抽出されたノイズの多い2Dキーポイントの品質をさらに向上させるため、信頼誘導損失を有する改良型ネットワークモジュールも導入する。
論文 参考訳(メタデータ) (2023-01-08T05:07:41Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - Kinematic 3D Object Detection in Monocular Video [123.7119180923524]
運動運動を注意深く利用して3次元位置決めの精度を向上させるモノクロ映像を用いた3次元物体検出法を提案する。
我々は、KITTI自動運転データセット内のモノクロ3次元物体検出とバードアイビュータスクの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-07-19T01:15:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。