Fugu-MT 論文翻訳(概要): EgoMotion: Hierarchical Reasoning and Diffusion for Egocentric Vision-Language Motion Generation

論文の概要: EgoMotion: Hierarchical Reasoning and Diffusion for Egocentric Vision-Language Motion Generation

arxiv url: http://arxiv.org/abs/2604.19105v1
Date: Tue, 21 Apr 2026 05:31:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-22 22:41:49.637431
Title: EgoMotion: Hierarchical Reasoning and Diffusion for Egocentric Vision-Language Motion Generation
Title（参考訳）: EgoMotion:Egocentric Vision-Language Motion Generationのための階層的推論と拡散
Authors: Ruibing Hou, Mingyue Zhou, Yuwei Gui, Mingshuang Luo, Bingpeng Ma, Hong Chang, Shiguang Shan, Xilin Chen,
Abstract要約: Egocentric Vision-Language (Ego-VL) モーション生成について検討する。本課題は,1対1の視覚的観察と自然言語の指示を併用した3次元人間の動作を合成することである。この課題に対処するために,階層型生成フレームワーク textbfEgoMotion を提案する。
参考スコア（独自算出の注目度）: 74.07852250099559
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Faithfully modeling human behavior in dynamic environments is a foundational challenge for embodied intelligence. While conditional motion synthesis has achieved significant advances, egocentric motion generation remains largely underexplored due to the inherent complexity of first-person perception. In this work, we investigate Egocentric Vision-Language (Ego-VL) motion generation. This task requires synthesizing 3D human motion conditioned jointly on first-person visual observations and natural language instructions. We identify a critical \textit{reasoning-generation entanglement} challenge: the simultaneous optimization of semantic reasoning and kinematic modeling introduces gradient conflicts. These conflicts systematically degrade the fidelity of multimodal grounding and motion quality. To address this challenge, we propose a hierarchical generative framework \textbf{EgoMotion}. Inspired by the biological decoupling of cognitive reasoning and motor control, EgoMotion operates in two stages. In the Cognitive Reasoning stage, A vision-language model (VLM) projects multimodal inputs into a structured space of discrete motion primitives. This forces the VLM to acquire goal-consistent representations, effectively bridging the semantic gap between high-level perceptual understanding and low-level action execution. In the Motion Generation stage, these learned representations serve as expressive conditioning signals for a diffusion-based motion generator. By performing iterative denoising within a continuous latent space, the generator synthesizes physically plausible and temporally coherent trajectories. Extensive evaluations demonstrate that EgoMotion achieves state-of-the-art performance, and produces motion sequences that are both semantically grounded and kinematically superior to existing approaches.
Abstract（参考訳）: 動的環境における人間の振る舞いを忠実にモデル化することは、インテリジェンスを具現化するための基礎的な課題である。条件付き運動合成は大きな進歩を遂げてきたが、自我中心の運動生成は、第一対人知覚の固有の複雑さのため、ほとんど未発見のままである。本研究では,エゴセントリック・ビジョン・ランゲージ(Ego-VL)運動生成について検討する。本課題は,1対1の視覚的観察と自然言語の指示を併用した3次元人間の動作を合成することである。意味論的推論とキネマティックモデリングの同時最適化は、勾配の矛盾をもたらす。これらの対立は、マルチモーダルグラウンドとモーションクオリティの忠実さを体系的に低下させる。この課題に対処するために、階層的生成フレームワーク \textbf{EgoMotion} を提案する。認知的推論と運動制御の生物学的分離に触発されて、EgoMotionは2つの段階で動作する。認知推論(Cognitive Reasoning)の段階では、視覚言語モデル(VLM)は、離散運動プリミティブの構造空間にマルチモーダル入力を投影する。これにより、VLMはゴール一貫性のある表現を取得し、高レベルの知覚的理解と低レベルの行動実行の間の意味的なギャップを効果的に埋める。モーションジェネレーションの段階では、これらの学習された表現は拡散ベースのモーションジェネレータの表現的条件付け信号として機能する。連続した潜伏空間内で反復分解を行うことにより、ジェネレータは物理的に可塑性かつ時間的にコヒーレントな軌道を合成する。広範囲な評価の結果,EgoMotionは最先端のパフォーマンスを達成し,既存のアプローチよりもセマンティックに基礎を置き,キネティックに優れている動作シーケンスを生成することがわかった。

関連論文リスト

Ego-InBetween: Generating Object State Transitions in Ego-Centric Videos [56.20829168540647]
EgoInは、TransitionVLMを使用して、2つの与えられた状態間のマルチステップ遷移プロセスを推論するフレームワークである。提案したトランジションコンディショニングモジュールによって生成される遷移条件に基づいて,フレームのシーケンスを生成する。人間オブジェクトとロボットオブジェクトのインタラクションデータセットの実験は、意味的に意味があり、視覚的にコヒーレントな変換シーケンスを生成する上で、EgoInの優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2026-04-20T03:07:22Z)
HO-Flow: Generalizable Hand-Object Interaction Generation with Latent Flow Matching [113.81911881001905]
HO-Flowはテキストと正準3Dオブジェクトから現実的な手動動作シーケンスを合成するためのフレームワークである。まず、手動と物体の動きのシーケンスを統一された潜在多様体に符号化するために、相互作用を意識した変分オートエンコーダを用いる。次に、自己回帰的時間的推論と連続的な潜伏生成を組み合わせたマスク付きフローマッチングモデルを利用する。
論文参考訳（メタデータ） (2026-04-12T22:06:11Z)
EgoForge: Goal-Directed Egocentric World Simulator [26.712565464146937]
EgoForgeはゴール指向の世界シミュレータで、最小限の静的入力から一対一のビデオロールアウトを生成する。 VideoDiffusionNFTは、拡散サンプリング中の目標完了、時間的因果性、シーンの一貫性、知覚的忠実度を最適化する軌道レベルの報酬誘導改良である。
論文参考訳（メタデータ） (2026-03-20T17:46:55Z)
Hand-Aware Egocentric Motion Reconstruction with Sequence-Level Context [17.735273173582716]
本稿では,頭部軌跡と間欠的に見える手探触子を直接条件とする,最初の手認識型シーケンスレベルの拡散フレームワークHaMoSを提案する。また, 身体形状や視野といったシーケンスレベルのコンテキストが, 正確な運動再構成に不可欠であることを示す。
論文参考訳（メタデータ） (2025-12-22T11:26:41Z)
EchoMotion: Unified Human Video and Motion Generation via Dual-Modality Diffusion Transformer [64.69014756863331]
本研究では,外見と人間の動作の同時分布をモデル化するフレームワークであるEchoMotionを紹介する。また,ビデオトークンとモーショントークンの両方に3次元位置符号化を統一したMVS-RoPEを提案する。以上の結果から,人間の動きを明示的に表現することは出現することであり,人間中心のビデオ生成のコヒーレンスと妥当性を著しく向上させることが判明した。
論文参考訳（メタデータ） (2025-12-21T17:08:14Z)
UniEgoMotion: A Unified Model for Egocentric Motion Reconstruction, Forecasting, and Generation [26.03507721111338]
本稿では、シーン認識動作合成に一対一のイメージを利用する2つの新しいタスクである、エゴセントリックモーション生成とエゴセントリックモーション予測を紹介する。我々は,エゴセントリックデバイスに適した新しい頭部中心運動表現を備えた統一された条件付き運動拡散モデルUniEgoMotionを提案する。 UniEgoMotionは、自我中心の運動再構成において最先端のパフォーマンスを達成し、単一の自我中心の画像から動きを初めて生成する。
論文参考訳（メタデータ） (2025-08-02T00:41:20Z)
MotionGPT3: Human Motion as a Second Modality [28.616340011811843]
MotionGPT3は、理解と生成の両方のためのバイモーダルモーション言語モデルである。共通注意を持つデュアルストリームトランスは、制御された双方向情報フローを実現しつつ、モダリティ固有の経路を保存する。実験により、MotionGPT3はトレーニング損失の2倍高速収束、検証の最大4倍高速収束を実現している。
論文参考訳（メタデータ） (2025-06-30T17:42:22Z)
InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文参考訳（メタデータ） (2024-12-16T13:57:02Z)
Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。 M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文参考訳（メタデータ） (2023-08-28T10:40:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。