論文の概要: EgoFlow: Gradient-Guided Flow Matching for Egocentric 6DoF Object Motion Generation
- arxiv url: http://arxiv.org/abs/2604.01421v1
- Date: Wed, 01 Apr 2026 21:43:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.071775
- Title: EgoFlow: Gradient-Guided Flow Matching for Egocentric 6DoF Object Motion Generation
- Title(参考訳): EgoFlow:Egocentric 6DoFオブジェクトモーション生成のためのグラディエントガイドフローマッチング
- Authors: Abhishek Saroha, Huajian Zeng, Xingxing Zuo, Daniel Cremers, Xi Wang,
- Abstract要約: マルチモーダルなエゴセントリックな観測を前提とした,現実的かつ物理的に可視な軌道を合成するフローマッチングフレームワークであるEgoFlowを提案する。
この結果は,スケーラブルで物理的に基盤付けられた自我中心の動作理解のためのフローベース生成モデリングの可能性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 47.32597153743819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding and predicting object motion from egocentric video is fundamental to embodied perception and interaction. However, generating physically consistent 6DoF trajectories remains challenging due to occlusions, fast motion, and the lack of explicit physical reasoning in existing generative models. We present EgoFlow, a flow-matching framework that synthesizes realistic and physically plausible trajectories conditioned on multimodal egocentric observations. EgoFlow employs a hybrid Mamba-Transformer-Perceiver architecture to jointly model temporal dynamics, scene geometry, and semantic intent, while a gradient-guided inference process enforces differentiable physical constraints such as collision avoidance and motion smoothness. This combination yields coherent and controllable motion generation without post-hoc filtering or additional supervision. Experiments on real-world datasets HD-EPIC, EgoExo4D, and HOT3D show that EgoFlow outperforms diffusion-based and transformer baselines in accuracy, generalization, and physical realism, reducing collision rates by up to 79%, and strong generalization to unseen scenes. Our results highlight the promise of flow-based generative modeling for scalable and physically grounded egocentric motion understanding.
- Abstract(参考訳): エゴセントリックなビデオから物体の動きを理解し予測することは、知覚と相互作用の具体化に不可欠である。
しかし、物理的に一貫した6DoF軌道の生成は、閉塞、高速運動、および既存の生成モデルにおける明示的な物理的推論の欠如により、依然として困難である。
マルチモーダルなエゴセントリックな観測を前提とした,現実的かつ物理的に可視な軌道を合成するフローマッチングフレームワークであるEgoFlowを提案する。
EgoFlowは、ハイブリッドなMamba-Transformer-Perceiverアーキテクチャを使用して、時間的ダイナミクス、シーン幾何学、意味的意図を共同でモデル化する一方、勾配誘導推論プロセスは衝突回避や動きの滑らかさといった様々な物理的制約を強制する。
この組み合わせは、ポストホックフィルタリングや追加の監督なしにコヒーレントかつ制御可能なモーション生成をもたらす。
実世界のデータセットであるHD-EPIC、EgoExo4D、HOT3Dの実験では、EgoFlowは拡散ベースおよびトランスフォーマーベースラインを精度、一般化、物理的リアリズムで上回り、衝突速度を最大79%削減し、見えないシーンへの強力な一般化を実現している。
この結果は,スケーラブルで物理的に基盤付けられた自我中心の動作理解のためのフローベース生成モデリングの可能性を浮き彫りにした。
関連論文リスト
- EgoSim: Egocentric World Simulator for Embodied Interaction Generation [93.11209644808783]
EgoSimは、空間的に一貫した対話ビデオを生成するクローズドループエゴセントリックな世界シミュレータである。
連続シミュレーションのために、基礎となる3Dシーン状態を継続的に更新する。
EgoSimは、視覚的品質、空間的整合性、一般化の点で、既存の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2026-04-01T15:00:46Z) - EgoForge: Goal-Directed Egocentric World Simulator [26.712565464146937]
EgoForgeはゴール指向の世界シミュレータで、最小限の静的入力から一対一のビデオロールアウトを生成する。
VideoDiffusionNFTは、拡散サンプリング中の目標完了、時間的因果性、シーンの一貫性、知覚的忠実度を最適化する軌道レベルの報酬誘導改良である。
論文 参考訳(メタデータ) (2026-03-20T17:46:55Z) - Egocentric World Model for Photorealistic Hand-Object Interaction Synthesis [25.153233500074194]
EgoHOIは、このショートカットから分離したエゴセントリックなHOIワールドモデルであり、アクション信号のみからの光リアルで接触一貫性のある相互作用をシミュレートする。
エゴホイは幾何学的およびキネマティックな先駆体を3次元推定から物理インフォームド埋め込みに蒸留する。
HOT3Dデータセットの実験では、強いベースラインよりも一貫したゲインを示し、設計の有効性を検証する。
論文 参考訳(メタデータ) (2026-03-13T21:46:17Z) - EgoReAct: Egocentric Video-Driven 3D Human Reaction Generation [84.37917777533963]
EgoReActは,エゴセントリックな映像ストリームからリアルタイムに3Dアライメントされた人間の反応運動を生成する最初のフレームワークである。
EgoReAct は,従来の手法に比べて極めて高いリアリズム,空間整合性,生成効率を実現している。
論文 参考訳(メタデータ) (2025-12-28T06:44:05Z) - SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios [48.09735396455107]
ハンドオブジェクトインタラクション(HOI)生成には、大きな応用可能性がある。
現在の3D HOIモーション生成アプローチは、事前に定義された3Dオブジェクトモデルとラボでキャプチャされたモーションデータに大きく依存している。
本稿では,同期拡散プロセス内での視覚的事前制約と動的制約を組み合わせることで,HOIビデオと動きを同時に生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-03T05:04:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。