論文の概要: EVA: Aligning Video World Models with Executable Robot Actions via Inverse Dynamics Rewards
- arxiv url: http://arxiv.org/abs/2603.17808v1
- Date: Wed, 18 Mar 2026 15:02:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.768453
- Title: EVA: Aligning Video World Models with Executable Robot Actions via Inverse Dynamics Rewards
- Title(参考訳): EVA:逆ダイナミクス・リワードによるロボット動作によるビデオワールドモデルの調整
- Authors: Ruixiang Wang, Qingming Liu, Yueci Deng, Guiliang Liu, Zhen Liu, Kui Jia,
- Abstract要約: ビデオ生成モデルは、ロボット工学の世界モデルとしてますます使われている。
現在のビデオワールドモデルは、明示的な実行可能性の制約を欠いている。
本稿では,ビデオワールドモデルを調整するための強化学習フレームワークであるExecutable Video Alignment (EVA)を紹介する。
- 参考スコア(独自算出の注目度): 47.255807408091755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generative models are increasingly used as world models for robotics, where a model generates a future visual rollout conditioned on the current observation and task instruction, and an inverse dynamics model (IDM) converts the generated frames into executable robot actions. However, current video world models lack explicit executability constraints. As a result, visually coherent rollouts may still violate rigid-body and kinematic consistency, producing unstable or infeasible control commands when decoded by an IDM. We refer to this mismatch between visual generation and physically executable control as the executability gap. While this gap can be mitigated at inference time using techniques such as rejection sampling, such approaches are inefficient due to the high cost of video generation. In this paper, we leverage the executability gap as a training signal and introduce Executable Video Alignment (EVA), a reinforcement-learning post-training framework for aligning video world models. EVA trains an inverse dynamics model on real robot trajectories and repurposes it as a reward model that evaluates generated videos through the action sequences they induce, encouraging smooth motions measured by velocity, acceleration, and jerk while penalizing actions that violate embodiment constraints. Importantly, the reward remains informative even when generated videos contain severe visual artifacts, since such artifacts typically translate into unstable or out-of-bound actions. Experiments on the RoboTwin benchmark and a real bimanual robot show that EVA reduces embodiment-specific artifacts in generated rollouts and improves downstream task execution success.
- Abstract(参考訳): ビデオ生成モデルはロボット工学の世界モデルとしてますます使われており、モデルが現在の観察とタスク命令に基づいて将来の視覚的なロールアウトを生成し、逆ダイナミクスモデル(IDM)が生成されたフレームを実行可能なロボットアクションに変換する。
しかし、現在のビデオワールドモデルは明示的な実行可能性の制約を欠いている。
結果として、視覚的コヒーレントなロールアウトは、厳密なボディとキネマティックな一貫性に反し、IMMによってデコードされたときに不安定または不可能な制御コマンドを生成する。
本稿では、視覚生成と物理的に実行可能な制御のミスマッチを、実行可能性ギャップとして言及する。
このギャップは、リジェクションサンプリングなどの手法を用いて推論時に緩和することができるが、ビデオ生成のコストが高いため、そのような手法は非効率である。
本稿では,実行可能性ギャップをトレーニング信号として活用し,ビデオワールドモデルを調整するための強化学習後学習フレームワークであるExecutable Video Alignment (EVA)を導入する。
EVAは、実際のロボット軌道上の逆ダイナミクスモデルをトレーニングし、それを報酬モデルとして再利用し、それらが誘導するアクションシーケンスを通じて生成されたビデオを評価する。
重要なことに、生成したビデオが深刻な視覚的アーティファクトを含む場合でも、報酬は情報として残る。
RoboTwinベンチマークと実際のバイマダルロボットの実験によると、EVAは生成されたロールアウトにおいて、エボディメント固有のアーティファクトを削減し、ダウンストリームタスク実行の成功を改善する。
関連論文リスト
- Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations [19.28925489415787]
RIGVidは、AI生成ビデオの模倣により、ロボットが複雑な操作タスクを実行できる。
ビデオ拡散モデルは潜在的なデモビデオを生成し、視覚言語モデルはコマンドに従わない結果を自動的にフィルタリングする。
6Dポーズトラッカーは、ビデオからオブジェクトの軌跡を抽出し、その軌跡をエンボディメント非依存の方法でロボットに再ターゲティングする。
論文 参考訳(メタデータ) (2025-07-01T17:39:59Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。