論文の概要: Ego-centric Predictive Model Conditioned on Hand Trajectories
- arxiv url: http://arxiv.org/abs/2508.19852v1
- Date: Wed, 27 Aug 2025 13:09:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.636988
- Title: Ego-centric Predictive Model Conditioned on Hand Trajectories
- Title(参考訳): ハンドトラジェクトリを用いたエゴ中心予測モデル
- Authors: Binjie Zhang, Mike Zheng Shou,
- Abstract要約: 自我中心のシナリオでは、次の行動とその視覚的結果の両方を予測することは、人間と物体の相互作用を理解するために不可欠である。
我々は,エゴセントリックなシナリオにおける行動と視覚的未来を共同でモデル化する,統合された2段階予測フレームワークを提案する。
我々のアプローチは、エゴセントリックな人間の活動理解とロボット操作の両方を扱うために設計された最初の統一モデルである。
- 参考スコア(独自算出の注目度): 52.531681772560724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In egocentric scenarios, anticipating both the next action and its visual outcome is essential for understanding human-object interactions and for enabling robotic planning. However, existing paradigms fall short of jointly modeling these aspects. Vision-Language-Action (VLA) models focus on action prediction but lack explicit modeling of how actions influence the visual scene, while video prediction models generate future frames without conditioning on specific actions, often resulting in implausible or contextually inconsistent outcomes. To bridge this gap, we propose a unified two-stage predictive framework that jointly models action and visual future in egocentric scenarios, conditioned on hand trajectories. In the first stage, we perform consecutive state modeling to process heterogeneous inputs (visual observations, language, and action history) and explicitly predict future hand trajectories. In the second stage, we introduce causal cross-attention to fuse multi-modal cues, leveraging inferred action signals to guide an image-based Latent Diffusion Model (LDM) for frame-by-frame future video generation. Our approach is the first unified model designed to handle both egocentric human activity understanding and robotic manipulation tasks, providing explicit predictions of both upcoming actions and their visual consequences. Extensive experiments on Ego4D, BridgeData, and RLBench demonstrate that our method outperforms state-of-the-art baselines in both action prediction and future video synthesis.
- Abstract(参考訳): エゴセントリックなシナリオでは、次のアクションとその視覚的結果の両方を予測することは、人間とオブジェクトの相互作用を理解し、ロボット計画を可能にするために不可欠である。
しかし、既存のパラダイムはこれらの側面を共同でモデル化するに足りません。
VLA(Vision-Language-Action)モデルはアクション予測に重点を置いているが、アクションがどのように視覚シーンに影響を与えるかを明確にモデル化していない。
このギャップを埋めるために,手動軌跡を前提とした,自己中心型シナリオにおける行動と視覚の未来を共同でモデル化する,統合された2段階予測フレームワークを提案する。
第1段階では、不均一な入力(視覚観察、言語、行動履歴)を処理するための連続状態モデリングを行い、将来の手指の軌跡を明示的に予測する。
第2段階では,マルチモーダルキューを融合するための因果的クロスアテンションを導入し,フレーム・バイ・フレーム・フュージョン・ビデオ生成のための画像ベース遅延拡散モデル(LDM)を導出するために,推論された動作信号を活用する。
我々のアプローチは、自我中心の人間の活動理解とロボット操作タスクの両方を扱うように設計された最初の統一モデルであり、今後の行動と視覚的結果の両方を明示的に予測する。
Ego4D, BridgeData, RLBenchの大規模実験により, 動作予測と映像合成の両面で, 最先端のベースラインよりも優れた性能を示した。
関連論文リスト
- HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - Diff-IP2D: Diffusion-Based Hand-Object Interaction Prediction on Egocentric Videos [22.81433371521832]
そこで我々は,Diff-IP2Dを提案する。
提案手法は,市販のメトリクスと新たに提案した評価プロトコルの両方において,最先端のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-05-07T14:51:05Z) - Unified Recurrence Modeling for Video Action Anticipation [16.240254363118016]
本稿では,メッセージパッシングフレームワークを用いたビデオアクション予測のための統合再帰モデルを提案する。
提案手法は,EPIC-Kitchenデータセットの大規模化において,従来よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T12:16:44Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - Dyadic Human Motion Prediction [119.3376964777803]
本稿では,2つの被験者の相互作用を明示的に推論する動き予測フレームワークを提案する。
具体的には,2つの被験者の運動履歴の相互依存をモデル化する一対の注意機構を導入する。
これにより、より現実的な方法で長期の運動力学を保ち、異常かつ高速な運動を予測することができる。
論文 参考訳(メタデータ) (2021-12-01T10:30:40Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z) - Future Frame Prediction of a Video Sequence [5.660207256468971]
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
論文 参考訳(メタデータ) (2020-08-31T15:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。