論文の概要: VAG: Dual-Stream Video-Action Generation for Embodied Data Synthesis
- arxiv url: http://arxiv.org/abs/2604.09330v1
- Date: Fri, 10 Apr 2026 13:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.892584
- Title: VAG: Dual-Stream Video-Action Generation for Embodied Data Synthesis
- Title(参考訳): VAG: 身体的データ合成のためのデュアルストリーム・ビデオ・アクション・ジェネレーション
- Authors: Xiaolei Lang, Yang Wang, Yukun Zhou, Chaojun Ni, Kerui Li, Jiagang Zhu, Tianze Liu, Jiajun Lv, Xingxing Zuo, Yun Ye, Guan Huang, Xiaofeng Wang, Zheng Zhu,
- Abstract要約: 視覚・言語条件下でビデオとアクションを協調的に生成する,フローマッチングに基づく統合型デュアルストリームフレームワークを提案する。
シミュレーションと実世界の両方の設定で、VAGは競合予測品質を備えた協調したビデオアクションペアを生成し、実行可能な軌道再生をサポートし、有用な合成事前学習データを提供する。
- 参考スコア(独自算出の注目度): 35.55805069125473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in robot foundation models trained on large-scale human teleoperation data have enabled robots to perform increasingly complex real-world tasks. However, scaling these systems remains difficult because collecting task-specific demonstrations is expensive and labor-intensive. Synthetic data, especially generated videos, offer a promising direction, but existing World Models (WMs) are not directly suitable for policy learning since they do not provide paired action trajectories. World-Action (WA) models partially address this by predicting actions with visual outputs, yet often lack strong video-action alignment, while two-stage pipelines that generate video first and then infer actions introduce inefficiency and error accumulation. To address these limitations, we propose VAG, a unified flow-matching-based dual-stream framework that jointly generates video and action under visual and language conditioning. By synchronizing denoising in both branches and using an adaptive 3D pooling mechanism to transfer compact global video context to the action branch, VAG improves cross-modal consistency during generation. Across both simulated and real-world settings, VAG produces aligned video-action pairs with competitive prediction quality, supports executable trajectory replay, and provides useful synthetic pretraining data that improves downstream policy generalization, indicating its potential as a practical world-action model for embodied data synthesis.
- Abstract(参考訳): 大規模人体遠隔操作データに基づいて訓練されたロボット基礎モデルの最近の進歩により、ロボットはますます複雑な現実世界のタスクをこなせるようになった。
しかし、タスク固有のデモンストレーションの収集は高価で労働集約的であるため、これらのシステムのスケーリングは依然として困難である。
合成データ、特に生成されたビデオは、有望な方向を提供するが、既存の世界モデル(WM)は、ペア化された行動軌跡を提供していないため、政策学習に直接適していない。
World-Action(WA)モデルは、視覚的な出力でアクションを予測することで部分的にこの問題に対処するが、ビデオファーストを生成し、次にアクションを推論する2段階のパイプラインは非効率性とエラーの蓄積をもたらす。
これらの制約に対処するため,視覚的および言語的条件下でビデオとアクションを共同で生成する,フローマッチングに基づく統合型デュアルストリームフレームワークであるVAGを提案する。
両ブランチを同期化し、適応的な3Dプーリング機構を使用して、コンパクトなグローバルなビデオコンテキストをアクションブランチに転送することにより、VAGは生成時の相互整合性を改善する。
シミュレーションと実世界の両方の設定において、VAGは競合予測品質と協調したビデオアクションペアを生成し、実行可能な軌道再生をサポートし、下流ポリシーの一般化を改善する有用な合成事前学習データを提供し、その可能性を具体化データ合成のための実用的な世界アクションモデルとして示している。
関連論文リスト
- GigaWorld-Policy: An Efficient Action-Centered World--Action Model [50.107640832046464]
GigaWorld-Policyはアクション中心のWAMで、2Dピクセルアクションのダイナミクスを学習し、オプションのビデオ生成で効率的なアクションデコーディングを可能にする。
実世界のロボットプラットフォームでの実験結果によると、GigaWorld-Policyは主要なWAMベースラインであるMotusの9倍高速で動作する。
論文 参考訳(メタデータ) (2026-03-18T00:52:02Z) - Causal World Modeling for Robot Control [56.31803788587547]
ビデオワールドモデルは、アクションと視覚力学の因果関係を理解することによって、近い将来に想像できる能力を提供する。
本稿では,フレーム予測とポリシ実行を同時に学習する自動回帰拡散フレームワークLingBot-VAを紹介する。
シミュレーションベンチマークと実世界のシナリオの両方でモデルを評価したところ、長距離操作、ポストトレーニングにおけるデータ効率、新しい構成への強力な一般化性などに大きな可能性を示唆している。
論文 参考訳(メタデータ) (2026-01-29T17:07:43Z) - EchoMotion: Unified Human Video and Motion Generation via Dual-Modality Diffusion Transformer [64.69014756863331]
本研究では,外見と人間の動作の同時分布をモデル化するフレームワークであるEchoMotionを紹介する。
また,ビデオトークンとモーショントークンの両方に3次元位置符号化を統一したMVS-RoPEを提案する。
以上の結果から,人間の動きを明示的に表現することは出現することであり,人間中心のビデオ生成のコヒーレンスと妥当性を著しく向上させることが判明した。
論文 参考訳(メタデータ) (2025-12-21T17:08:14Z) - CoVAR: Co-generation of Video and Action for Robotic Manipulation via Multi-Modal Diffusion [27.567059323636112]
本稿では,最初の画像観察とロボットの関節状態から,テキストの指示に従うビデオアクションペアを生成する手法を提案する。
提案手法は,ビデオ拡散モデルのアクションラベルを自動的に提供し,アクションアノテーションの欠如を克服し,ロボットポリシー学習の完全活用を可能にする。
論文 参考訳(メタデータ) (2025-12-17T23:16:02Z) - mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。
提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文 参考訳(メタデータ) (2025-12-17T18:47:31Z) - Precise Action-to-Video Generation Through Visual Action Prompts [62.951609704196485]
アクション駆動のビデオ生成は、精度と一般性のトレードオフに直面している。
エージェント中心のアクション信号は、クロスドメイン転送可能性のコストで精度を提供する。
私たちはアクションをドメインに依存しない表現として正確に視覚的なプロンプトに"レンダリング"します。
論文 参考訳(メタデータ) (2025-08-18T17:12:28Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。