論文の概要: Flowing from Reasoning to Motion: Learning 3D Hand Trajectory Prediction from Egocentric Human Interaction Videos
- arxiv url: http://arxiv.org/abs/2512.16907v1
- Date: Thu, 18 Dec 2025 18:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.246811
- Title: Flowing from Reasoning to Motion: Learning 3D Hand Trajectory Prediction from Egocentric Human Interaction Videos
- Title(参考訳): 推論から動きへの流れ:エゴセントリックなヒューマンインタラクションビデオから3Dハンドの軌道予測を学習する
- Authors: Mingfei Chen, Yifan Wang, Zhengqin Li, Homanga Bharadhwaj, Yujin Chen, Chuan Qin, Ziyi Kou, Yuan Tian, Eric Whitmire, Rajinder Sodhi, Hrvoje Benko, Eli Shlizerman, Yue Liu,
- Abstract要約: 本研究では,219K 6DoFトラジェクトリと3M構造化QAペアを用いた対話段階認識3次元ハンドトラジェクトリ予測のための大規模エゴセントリックデータセットを提案する。
次に、軌跡言語インタフェースを介して視覚的な推論と動き生成をリンクする推論・運動フレームワークであるEgoMANモデルを紹介する。
- 参考スコア(独自算出の注目度): 42.207282959798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior works on 3D hand trajectory prediction are constrained by datasets that decouple motion from semantic supervision and by models that weakly link reasoning and action. To address these, we first present the EgoMAN dataset, a large-scale egocentric dataset for interaction stage-aware 3D hand trajectory prediction with 219K 6DoF trajectories and 3M structured QA pairs for semantic, spatial, and motion reasoning. We then introduce the EgoMAN model, a reasoning-to-motion framework that links vision-language reasoning and motion generation via a trajectory-token interface. Trained progressively to align reasoning with motion dynamics, our approach yields accurate and stage-aware trajectories with generalization across real-world scenes.
- Abstract(参考訳): 3次元手動軌跡予測の先行研究は、意味的な監督から動きを分離するデータセットと、推論と行動の弱い結合モデルによって制約される。
そこで我々はまず,219K 6DoFトラジェクトリと3M構造化QAペアを用いた対話段階認識3次元ハンドトラジェクトリ予測のための大規模エゴセントリックデータセットであるEgoMANデータセットを提示する。
次に,視覚言語推論と運動生成をトラジェクティブ・トケン・インタフェースで結合する推論・運動フレームワークであるEgoMANモデルを紹介する。
動作力学と推論の整合性を段階的に訓練することにより,現実の場面にまたがる一般化を伴う,正確かつ段階的な軌道を導出する。
関連論文リスト
- CoopDiff: Anticipating 3D Human-object Interactions via Contact-consistent Decoupled Diffusion [62.93198247045824]
3Dヒューマンオブジェクトインタラクション(HOI)は,人間の将来の動きとその操作対象を,歴史的文脈で予測することを目的としている。
そこで我々は,人間と物体の運動モデリングを分離するために,2つの異なる分岐を用いた接触非結合拡散フレームワークCoopDiffを提案する。
論文 参考訳(メタデータ) (2025-08-10T03:29:17Z) - MADiff: Motion-Aware Mamba Diffusion Models for Hand Trajectory Prediction on Egocentric Videos [27.766405152248055]
手の軌道予測は人間の動きのパターンを理解する上で重要な役割を担っている。
しかし,高レベルの人間の意図を合理的な時間的因果関係と一致させることは,エゴセントリックなビデオのみが利用可能である場合には困難である。
拡散モデルを用いて将来のハンドウェイポイントを予測するMADiffと呼ばれる新しいハンドトラジェクトリ予測手法を提案する。
論文 参考訳(メタデータ) (2024-09-04T12:06:33Z) - Past Movements-Guided Motion Representation Learning for Human Motion Prediction [0.0]
動作表現の強化を目的とした自己教師型学習フレームワークを提案する。
フレームワークは、まず、過去のシーケンスの自己再構成を通じてネットワークを事前訓練し、過去の動きに基づく将来のシーケンスのガイド付き再構築を行う。
提案手法は,Human3.6,3DPW,AMASSデータセットの平均予測誤差を8.8%削減する。
論文 参考訳(メタデータ) (2024-08-04T17:00:37Z) - Diff-IP2D: Diffusion-Based Hand-Object Interaction Prediction on Egocentric Videos [22.81433371521832]
そこで我々は,Diff-IP2Dを提案する。
提案手法は,市販のメトリクスと新たに提案した評価プロトコルの両方において,最先端のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-05-07T14:51:05Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Uncertainty-aware State Space Transformer for Egocentric 3D Hand
Trajectory Forecasting [79.34357055254239]
ハンドトラジェクトリ予測は、AR/VRシステムと対話する際の人間の意図の迅速な理解を可能にするために不可欠である。
既存の方法では、現実の3Dアプリケーションでは不十分な2次元画像空間でこの問題に対処する。
初対人視点で観察されたRGBビデオから3次元空間のハンドトラジェクトリを予測することを目的とした,エゴセントリックな3Dハンドトラジェクトリ予測タスクを構築した。
論文 参考訳(メタデータ) (2023-07-17T04:55:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。