論文の概要: EggHand: A Multimodal Foundation Model for Egocentric Hand Pose Forecasting
- arxiv url: http://arxiv.org/abs/2605.07642v1
- Date: Fri, 08 May 2026 12:09:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.031615
- Title: EggHand: A Multimodal Foundation Model for Egocentric Hand Pose Forecasting
- Title(参考訳): EggHand:Egocentric Hand Pose Forecastingのためのマルチモーダルファンデーションモデル
- Authors: Jaeyoung Choi, Hyeondong Kim, Yujin Kim, Daehee Park,
- Abstract要約: EggHandは、エゴセントリックな手ポーズ予測のための基盤モデルベースのフレームワークである。
動的モーションモデリングとマルチモーダルなセマンティック推論を統一する。
提案手法は,エゴモーション下でのジェネリックビジュアルエンコーダの脆さを克服する。
- 参考スコア(独自算出の注目度): 11.687067206676625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Forecasting future 3D hand pose sequences from egocentric video is essential for understanding human intention and enabling embodied applications such as AR/VR assistance and human-robot interaction. However, this task remains a highly challenging problem because egocentric hand motion is driven by complex human intent, exhibits highly dexterous articulations, and is observed under drastic viewpoint shifts induced by ego-motion. In this work, we introduce EggHand, a foundation-model-based framework for egocentric hand pose forecasting that unifies multimodal semantic reasoning with dynamic motion modeling. Our approach couples an action decoder from a Vision-Language-Action (VLA) model, which captures the structured temporal dynamics of hand motion, with an egocentric video-text encoder that provides viewpoint-aware contextual information learned from large-scale first-person video. Together, these components overcome the brittleness of generic visual encoders under ego-motion and enable joint reasoning over motion, context, and high-level intent-without relying on body pose or external tracking. Experiments on the EgoExo4D dataset show that EggHand sets a new state of the art in forecasting accuracy, remains robust under severe ego-motion, and further enables controllable prediction via language-based task prompts. Project page: https://jyoun9.github.io/EggHand
- Abstract(参考訳): 自己中心型ビデオから将来の3Dハンドポーズシーケンスを予測することは、人間の意図を理解し、AR/VRアシストや人間とロボットの相互作用といった具体的応用を可能にするために不可欠である。
しかしながら、この課題は、自我中心的な手の動きは複雑な人間の意図によって駆動され、非常にきめ細やかな調音を示し、自我運動によって引き起こされる劇的な視点シフトの下で観察されるため、非常に難しい問題である。
本研究では,エゴセントリックな手ポーズ予測のための基盤モデルに基づくフレームワークであるEggHandを紹介する。
提案手法では,手の動きの構造的時間的ダイナミクスを捉えた視覚・言語・アクション(VLA)モデルからのアクションデコーダと,大規模1人称ビデオから学習した視点対応のコンテキスト情報を提供するエゴセントリックなビデオテキストエンコーダを結合する。
これらのコンポーネントは、エゴモーション下での一般的な視覚エンコーダの脆さを克服し、身体のポーズや外的追跡に依存することなく、動き、コンテキスト、高レベルの意図を共同推論することを可能にする。
EgoExo4Dデータセットの実験では、EggHandが予測精度の新たな最先端を設定し、厳しいエゴモーションの下では堅牢であり、さらに言語ベースのタスクプロンプトを通じて制御可能な予測を可能にする。
プロジェクトページ: https://jyoun9.github.io/EggHand
関連論文リスト
- EgoMotion: Hierarchical Reasoning and Diffusion for Egocentric Vision-Language Motion Generation [74.07852250099559]
Egocentric Vision-Language (Ego-VL) モーション生成について検討する。
本課題は,1対1の視覚的観察と自然言語の指示を併用した3次元人間の動作を合成することである。
この課題に対処するために,階層型生成フレームワーク textbfEgoMotion を提案する。
論文 参考訳(メタデータ) (2026-04-21T05:31:06Z) - Hand-Aware Egocentric Motion Reconstruction with Sequence-Level Context [17.735273173582716]
本稿では,頭部軌跡と間欠的に見える手探触子を直接条件とする,最初の手認識型シーケンスレベルの拡散フレームワークHaMoSを提案する。
また, 身体形状や視野といったシーケンスレベルのコンテキストが, 正確な運動再構成に不可欠であることを示す。
論文 参考訳(メタデータ) (2025-12-22T11:26:41Z) - EgoM2P: Egocentric Multimodal Multitask Pretraining [55.259234688003545]
大規模なエゴセントリックなマルチモーダルモデルとマルチタスクモデルの構築は、ユニークな課題を示している。
EgoM2Pは、時間的に認識されたマルチモーダルトークンから学習し、エゴセントリックな4D理解のための大規模な汎用モデルをトレーニングするマスク付きモデリングフレームワークである。
私たちはEgoM2Pを完全にオープンソース化し、コミュニティを支援し、エゴセントリックなビジョン研究を前進させます。
論文 参考訳(メタデータ) (2025-06-09T15:59:25Z) - Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning [71.02843679746563]
エゴセントリックなビデオ理解では、手や物体の動きと相互作用は自然によって重要な役割を果たす。
本研究では,細粒度ハンドオブジェクトのモデリングをビデオ表現学習プロセスに統合することを目的とする。
EgoVideoは,手の動き情報を微粒化するための,新しい軽量モーションアダプタを備えたモデルである。
論文 参考訳(メタデータ) (2025-03-02T18:49:48Z) - MADiff: Motion-Aware Mamba Diffusion Models for Hand Trajectory Prediction on Egocentric Videos [27.766405152248055]
手の軌道予測は人間の動きのパターンを理解する上で重要な役割を担っている。
しかし,高レベルの人間の意図を合理的な時間的因果関係と一致させることは,エゴセントリックなビデオのみが利用可能である場合には困難である。
拡散モデルを用いて将来のハンドウェイポイントを予測するMADiffと呼ばれる新しいハンドトラジェクトリ予測手法を提案する。
論文 参考訳(メタデータ) (2024-09-04T12:06:33Z) - Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects [89.95728475983263]
ロボティクス、AR/VR、アクション認識、モーション生成といったタスクにおいて、自己中心的な視点からこのようなインタラクションを理解することが重要である。
我々は、AmblyHandsとARCTICデータセットに基づいたHANDS23チャレンジを、慎重に設計されたトレーニングとテストの分割に基づいて設計する。
提案手法の結果と近年のリーダーボードのベースラインに基づいて,3Dハンド(オブジェクト)再構成タスクの徹底的な解析を行う。
論文 参考訳(メタデータ) (2024-03-25T05:12:21Z) - Ego-Body Pose Estimation via Ego-Head Pose Estimation [22.08240141115053]
エゴセントリックなビデオシーケンスから3次元の人間の動きを推定することは、人間の行動理解において重要な役割を担い、VR/ARに様々な応用がある。
Ego-Head Pose Estimation (EgoEgo) と呼ばれる新しい手法を提案する。
この頭と体のポーズのゆがみは、ペア化されたエゴセントリックなビデオと3D人間の動きでデータセットをトレーニングする必要をなくす。
論文 参考訳(メタデータ) (2022-12-09T02:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。