論文の概要: Grounding Foundational Vision Models with 3D Human Poses for Robust Action Recognition
- arxiv url: http://arxiv.org/abs/2511.05622v1
- Date: Thu, 06 Nov 2025 23:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.505056
- Title: Grounding Foundational Vision Models with 3D Human Poses for Robust Action Recognition
- Title(参考訳): ロバストな行動認識のための3次元人間視点を用いた接地基礎視覚モデル
- Authors: Nicholas Babey, Tiffany Gu, Yiheng Li, Cristian Meo, Kevin Zhu,
- Abstract要約: 本稿では,2つの強力な表現を融合させることにより,物理空間における行動認識の基盤となるモデルアーキテクチャを提案する。
本研究は,統計的パターン認識ではなく,空間的理解によって支援される行動認識の必要性を強調した。
- 参考スコア(独自算出の注目度): 9.60597318908497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For embodied agents to effectively understand and interact within the world around them, they require a nuanced comprehension of human actions grounded in physical space. Current action recognition models, often relying on RGB video, learn superficial correlations between patterns and action labels, so they struggle to capture underlying physical interaction dynamics and human poses in complex scenes. We propose a model architecture that grounds action recognition in physical space by fusing two powerful, complementary representations: V-JEPA 2's contextual, predictive world dynamics and CoMotion's explicit, occlusion-tolerant human pose data. Our model is validated on both the InHARD and UCF-19-Y-OCC benchmarks for general action recognition and high-occlusion action recognition, respectively. Our model outperforms three other baselines, especially within complex, occlusive scenes. Our findings emphasize a need for action recognition to be supported by spatial understanding instead of statistical pattern recognition.
- Abstract(参考訳): 体内エージェントが周囲の世界を効果的に理解し、相互作用するためには、物理的な空間に根ざした人間の行動の微妙な理解が必要である。
現在のアクション認識モデルは、しばしばRGBビデオに依存し、パターンとアクションラベルの間の表面的相関を学習する。
本稿では,V-JEPA 2の文脈的,予測的世界ダイナミクスとCoMotionの明示的,排他的かつ耐久的な人間のポーズデータという2つの強力な相補的表現を融合させることにより,物理空間における行動認識の基盤となるモデルアーキテクチャを提案する。
InHARD と UCF-19-Y-OCC のベンチマークを用いて, 汎用動作認識とハイオクルージョン動作認識の両モデルについて検証を行った。
私たちのモデルは、特に複雑で排他的なシーンにおいて、他の3つのベースラインよりも優れています。
本研究は,統計的パターン認識ではなく,空間的理解によって支援される行動認識の必要性を強調した。
関連論文リスト
- GraMMaR: Ground-aware Motion Model for 3D Human Motion Reconstruction [61.833152949826946]
本研究では,GraMMaRという3次元人体動作再構成のための新しいグラウンド・アウェア・モーション・モデルを提案する。
GraMMaRは、動きシーケンスの各時間ステップにおいて、ポーズにおける遷移の分布と、各関節面と接地面の間の相互作用を学習する。
運動と地面への距離変化との整合性を明確に促進するように訓練されている。
論文 参考訳(メタデータ) (2023-06-29T07:22:20Z) - Full-Body Articulated Human-Object Interaction [61.01135739641217]
CHAIRSは16.2時間の多目的相互作用からなる大規模な動きキャプチャーされたf-AHOIデータセットである。
CHAIRSは、対話的なプロセス全体を通して、人間と明瞭なオブジェクトの両方の3Dメッシュを提供する。
HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を利用した最初のモデルが考案された。
論文 参考訳(メタデータ) (2022-12-20T19:50:54Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。