論文の概要: EA-WM: Event-Aware Generative World Model with Structured Kinematic-to-Visual Action Fields
- arxiv url: http://arxiv.org/abs/2605.06192v1
- Date: Thu, 07 May 2026 13:06:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.810193
- Title: EA-WM: Event-Aware Generative World Model with Structured Kinematic-to-Visual Action Fields
- Title(参考訳): EA-WM:構造化キネマティック・ツー・ビジュアルアクション場を用いたイベント認識型生成世界モデル
- Authors: Zhaoyang Yang, Yurun Jin, Lizhe Qi, Cong Huang, Kai Chen,
- Abstract要約: 本稿では,運動制御と視覚知覚のループを閉じるイベントウェア生成世界モデルEA-WMを提案する。
イベント認識型双方向核融合ブロックを導入し、クロスブランチの注意を変調し、オブジェクトの状態変化と正確な相互作用のダイナミクスを捉える。
EA-WMは最先端のパフォーマンスを達成し、既存のベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 15.319293934673915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained video diffusion models provide powerful spatiotemporal generative priors, making them a natural foundation for robotic world models. While recent world-action models jointly optimize future videos and actions, they predominantly treat video generation as an auxiliary representation for policy learning. Consequently, they insufficiently explore the inverse problem: leveraging action signals to guide video synthesis, thereby often failing to preserve precise robot spatial geometry and fine-grained robot-object interaction dynamics in the generated rollouts. To bridge this gap, we present EA-WM, an Event-Aware Generative World Model that effectively closes the loop between kinematic control and visual perception. Rather than injecting joint or end-effector actions as abstract, low-dimensional tokens, EA-WM projects actions and kinematic states directly into the target camera view as Structured Kinematic-to-Visual Action Fields. To fully exploit this geometrically grounded representation, we introduce event-aware bidirectional fusion blocks that modulate cross-branch attention, capturing object state changes and interaction dynamics. Evaluated on the comprehensive WorldArena benchmark, EA-WM achieves state-of-the-art performance, outperforming existing baselines by a significant margin.
- Abstract(参考訳): 事前訓練されたビデオ拡散モデルは、強力な時空間生成先行を提供するため、ロボットの世界モデルにとって自然な基盤となっている。
最近のワールドアクションモデルは、将来のビデオとアクションを共同で最適化するが、彼らは主に、ビデオ生成をポリシー学習の補助的な表現として扱う。
その結果、ビデオ合成を誘導するためにアクション信号を活用することで、正確なロボット空間形状と、生成されたロールアウトにおけるきめ細かいロボットとオブジェクトの相互作用のダイナミクスを保存できないことがしばしばある。
このギャップを埋めるために,キネマティック制御と視覚知覚のループを効果的に閉じるイベント認識生成世界モデルEA-WMを提案する。
EA-WMは、抽象的で低次元のトークンとしてジョイントアクションやエンドエフェクタアクションを注入するのではなく、ターゲットカメラビューに直接、構造化キネマティック・ツー・ビジュアルアクションフィールドとしてアクションとキネマティックステートを投影する。
この幾何学的基底表現をフル活用するために、クロスブランチの注意を変調し、オブジェクトの状態変化と相互作用のダイナミクスをキャプチャするイベント認識双方向融合ブロックを導入する。
包括的なWorldArenaベンチマークに基づいて、EA-WMは最先端のパフォーマンスを達成し、既存のベースラインを大幅に上回っている。
関連論文リスト
- AIM: Intent-Aware Unified world action Modeling with Spatial Value Maps [7.710034405765985]
AIMは、明示的な空間的インターフェースを通じてこのギャップを橋渡しする意図認識の統一世界行動モデルである。
事前訓練されたビデオ生成モデルに基づいて構築されたAIMは、共有変換器アーキテクチャ内の将来の観測と値マップを共同でモデル化する。
RoboTwin 2.0ベンチマークの実験では、AIMは平均94.0%の成功率に達し、以前の統合された世界行動ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2026-04-13T07:48:58Z) - Astra: General Interactive World Model with Autoregressive Denoising [73.6594791733982]
Astraはインタラクティブな汎用世界モデルであり、多様なシナリオのために現実世界の未来を生成する。
本稿では,自己回帰型認知型アーキテクチャを提案し,時間的因果的注意を用いて過去の観測を集約する。
Astraはインタラクティブで一貫性があり、一般的な長期的なビデオ予測を実現し、様々な形式のインタラクションをサポートする。
論文 参考訳(メタデータ) (2025-12-09T18:59:57Z) - Learning to Generate Object Interactions with Physics-Guided Video Diffusion [28.191514920144456]
我々は,現実的な剛体制御,インタラクション,エフェクトを可能にする物理誘導型ビデオ生成のアプローチであるKineMaskを紹介する。
本研究では,物体マスクによる将来の運動監視を段階的に除去する2段階のトレーニング戦略を提案する。
実験により、KineMaskは、同等の大きさの最近のモデルよりも強力な改善を達成している。
論文 参考訳(メタデータ) (2025-10-02T17:56:46Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。