論文の概要: BridgeV2W: Bridging Video Generation Models to Embodied World Models via Embodiment Masks
- arxiv url: http://arxiv.org/abs/2602.03793v1
- Date: Tue, 03 Feb 2026 17:56:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.621724
- Title: BridgeV2W: Bridging Video Generation Models to Embodied World Models via Embodiment Masks
- Title(参考訳): BridgeV2W: エンボディメント・マスクによる仮想世界モデルへのビデオ生成モデルをブリッジする
- Authors: Yixiang Chen, Peiyan Li, Jiabing Yang, Keji He, Xiangnan Wu, Yuan Xu, Kai Wang, Jing Liu, Nianfeng Liu, Yan Huang, Liang Wang,
- Abstract要約: 身体化された世界モデルは、ロボティクスにおいて有望なパラダイムとして登場した。
本稿では,座標空間の動作を画素配向の実施マスクに変換するBridgeV2Wを提案する。
これらのマスクは、コントロールネットスタイルの経路を介して、事前訓練されたビデオ生成モデルに注入される。
- 参考スコア(独自算出の注目度): 20.127101726681275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied world models have emerged as a promising paradigm in robotics, most of which leverage large-scale Internet videos or pretrained video generation models to enrich visual and motion priors. However, they still face key challenges: a misalignment between coordinate-space actions and pixel-space videos, sensitivity to camera viewpoint, and non-unified architectures across embodiments. To this end, we present BridgeV2W, which converts coordinate-space actions into pixel-aligned embodiment masks rendered from the URDF and camera parameters. These masks are then injected into a pretrained video generation model via a ControlNet-style pathway, which aligns the action control signals with predicted videos, adds view-specific conditioning to accommodate camera viewpoints, and yields a unified world model architecture across embodiments. To mitigate overfitting to static backgrounds, BridgeV2W further introduces a flow-based motion loss that focuses on learning dynamic and task-relevant regions. Experiments on single-arm (DROID) and dual-arm (AgiBot-G1) datasets, covering diverse and challenging conditions with unseen viewpoints and scenes, show that BridgeV2W improves video generation quality compared to prior state-of-the-art methods. We further demonstrate the potential of BridgeV2W on downstream real-world tasks, including policy evaluation and goal-conditioned planning. More results can be found on our project website at https://BridgeV2W.github.io .
- Abstract(参考訳): Embodied World Modelは、ロボット工学において有望なパラダイムとして登場し、その多くは、大規模なインターネットビデオや、事前訓練されたビデオ生成モデルを利用して、視覚的および動きの先行を豊かにする。
しかし、それらは依然として重要な課題に直面している: 座標空間のアクションとピクセル空間のビデオの不一致、カメラの視点に対する感度、そして実施範囲を越えて統一されていないアーキテクチャ。
この目的のために、座標空間の動作をURDFおよびカメラパラメータから描画された画素配向の実施マスクに変換するBridgeV2Wを提案する。
これらのマスクは、コントロールネットスタイルの経路を介して事前訓練されたビデオ生成モデルに注入され、アクション制御信号を予測されたビデオと整列させ、カメラの視点に合わせてビュー固有の条件付けを追加し、エボディメントをまたいだ統一された世界モデルアーキテクチャを生成する。
静的なバックグラウンドへのオーバーフィッティングを軽減するため、BridgeV2Wはさらに、動的およびタスク関連領域の学習に焦点を当てたフローベースのモーションロスを導入している。
シングルアーム(DROID)とデュアルアーム(AgiBot-G1)データセットの実験では、目に見えない視点とシーンを持つ多様で挑戦的な条件をカバーし、BridgeV2Wが従来の最先端手法と比較してビデオ生成品質を改善することを示した。
さらに、政策評価や目標条件付き計画など、下流現実業務におけるBridgeV2Wの可能性を示す。
さらなる結果はプロジェクトのWebサイト https://BridgeV2W.github.io で確認できます。
関連論文リスト
- Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation [49.12018869332346]
InfCamは、高ポーズ忠実度でカメラ制御されたビデオ・ビデオ生成フレームワークである。
1)ビデオ拡散モデルの2次元潜在空間内で直接3次元カメラ回転を符号化する。
論文 参考訳(メタデータ) (2025-12-18T20:03:05Z) - DRAW2ACT: Turning Depth-Encoded Trajectories into Robotic Demonstration Videos [24.681248200255975]
ビデオモデルは、組み込みAIのための強力な現実世界シミュレータを提供するが、ロボット操作の制御性には制限がある。
入力軌跡から複数の表現を抽出するトラジェクトリ条件付きビデオ生成フレームワークであるDRAW2ACTを提案する。
DRAW2ACTは、既存のベースラインよりも高い操作成功率を示しながら、より優れた視覚的忠実度と一貫性を実現する。
論文 参考訳(メタデータ) (2025-12-16T09:11:36Z) - Image Generation as a Visual Planner for Robotic Manipulation [0.0]
リアルなロボット操作ビデオを生成することは、エンボディエージェントの知覚、計画、行動を統合するための重要なステップである。
本稿では,(1)言語命令と第1フレームを使用するテキスト条件生成と,(2)2次元トラジェクトリオーバーレイと同一初期フレームを使用するトラジェクトリ条件生成とを含む2部構成のフレームワークを提案する。
以上の結果から,予め訓練した画像生成装置は,移動可能な時間的先行を符号化し,最小限の監督下でビデオライクなロボットプランナーとして機能する可能性が示唆された。
論文 参考訳(メタデータ) (2025-11-29T15:54:16Z) - AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes [63.055387623861094]
最近のテキスト・トゥ・ビデオ(T2V)モデルは、実世界の幾何学と物理法則の視覚シミュレーションにおいて強力な能力を示している。
本稿では,事前学習したT2Vモデルを用いて視点予測を行うための2段階のパラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-12T15:55:44Z) - Generating Human Motion Videos using a Cascaded Text-to-Video Framework [27.77921324288557]
CAMEOは、一般的な人間のモーションビデオ生成のためのカスケードフレームワークである。
Text-to-Motion(T2M)モデルと条件付きVDMをシームレスにブリッジする。
提案手法の有効性をMovieGenベンチマークとT2M-VDMの組み合わせに合わせて新たに導入したベンチマークで示す。
論文 参考訳(メタデータ) (2025-10-04T19:16:28Z) - AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - E2HQV: High-Quality Video Generation from Event Camera via
Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。
イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。
イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文 参考訳(メタデータ) (2024-01-16T05:10:50Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。