論文の概要: CoVAR: Co-generation of Video and Action for Robotic Manipulation via Multi-Modal Diffusion
- arxiv url: http://arxiv.org/abs/2512.16023v1
- Date: Wed, 17 Dec 2025 23:16:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.848548
- Title: CoVAR: Co-generation of Video and Action for Robotic Manipulation via Multi-Modal Diffusion
- Title(参考訳): CoVAR:マルチモード拡散によるロボットマニピュレーションのためのビデオとアクションの共同生成
- Authors: Liudi Yang, Yang Bai, George Eskandar, Fengyi Shen, Mohammad Altillawi, Dong Chen, Ziyuan Liu, Abhinav Valada,
- Abstract要約: 本稿では,最初の画像観察とロボットの関節状態から,テキストの指示に従うビデオアクションペアを生成する手法を提案する。
提案手法は,ビデオ拡散モデルのアクションラベルを自動的に提供し,アクションアノテーションの欠如を克服し,ロボットポリシー学習の完全活用を可能にする。
- 参考スコア(独自算出の注目度): 27.567059323636112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a method to generate video-action pairs that follow text instructions, starting from an initial image observation and the robot's joint states. Our approach automatically provides action labels for video diffusion models, overcoming the common lack of action annotations and enabling their full use for robotic policy learning. Existing methods either adopt two-stage pipelines, which limit tightly coupled cross-modal information sharing, or rely on adapting a single-modal diffusion model for a joint distribution that cannot fully leverage pretrained video knowledge. To overcome these limitations, we (1) extend a pretrained video diffusion model with a parallel, dedicated action diffusion model that preserves pretrained knowledge, (2) introduce a Bridge Attention mechanism to enable effective cross-modal interaction, and (3) design an action refinement module to convert coarse actions into precise controls for low-resolution datasets. Extensive evaluations on multiple public benchmarks and real-world datasets demonstrate that our method generates higher-quality videos, more accurate actions, and significantly outperforms existing baselines, offering a scalable framework for leveraging large-scale video data for robotic learning.
- Abstract(参考訳): 本稿では,最初の画像観察とロボットの関節状態から,テキストの指示に従うビデオアクションペアを生成する手法を提案する。
提案手法は,ビデオ拡散モデルのアクションラベルを自動的に提供し,アクションアノテーションの欠如を克服し,ロボットポリシー学習の完全活用を可能にする。
既存の方法は、密結合したクロスモーダル情報共有を制限する2段階のパイプラインを採用するか、事前訓練されたビデオ知識を十分に活用できないジョイントディストリビューションに単一モーダル拡散モデルを適用するかのいずれかである。
これらの制限を克服するために,(1)事前学習した映像拡散モデルを,事前学習した知識を保存した並列なアクション拡散モデルで拡張し,(2)効果的なクロスモーダル相互作用を可能にするブリッジ注意機構を導入し,(3)粗いアクションを低解像度データセットの正確な制御に変換するアクション改善モジュールを設計する。
複数の公開ベンチマークと実世界のデータセットに対する大規模な評価は、我々の手法が高品質なビデオを生成し、より正確なアクションを生成し、既存のベースラインを著しく上回り、大規模ビデオデータをロボット学習に活用するためのスケーラブルなフレームワークを提供することを示している。
関連論文リスト
- Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - Vidar: Embodied Video Diffusion Model for Generalist Manipulation [28.216910600346512]
Vidarは、ほとんどのエンボディメント固有のデータを転送可能なビデオに置き換える、事前駆動のローショット適応パラダイムである。
以上の結果から,強力で安価なビデオプリエントと最小限のオンロボットアライメントという,“先行的かつ多数の実施”のためのスケーラブルなレシピが示唆された。
論文 参考訳(メタデータ) (2025-07-17T08:31:55Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - Vid2World: Crafting Video Diffusion Models to Interactive World Models [35.42362065437052]
我々は、トレーニング済みの動画拡散モデルをインタラクティブな世界モデルに活用し、転送するための一般的なアプローチであるVid2Worldを紹介する。
本手法は,高機能な映像拡散モデルをインタラクティブな世界モデルに再利用するための,スケーラブルで効果的な経路を提供する。
論文 参考訳(メタデータ) (2025-05-20T13:41:45Z) - Unified Video Action Model [47.88377984526902]
統合されたビデオとアクションモデルは、アクション予測のためのリッチなシーン情報を提供するロボット工学にとって重要な約束である。
我々は,映像とアクションの予測を協調的に最適化し,高精度かつ効率的なアクション推論を実現するUnified Video Action Model (UVA)を提案する。
広範な実験により、UVAは幅広いロボティクスタスクの汎用的なソリューションとして機能できることが実証された。
論文 参考訳(メタデータ) (2025-02-28T21:38:17Z) - Cross-modal Manifold Cutmix for Self-supervised Video Representation
Learning [50.544635516455116]
本稿では,自己教師型学習のためのビデオ強化の設計に焦点をあてる。
まず、ビデオを混ぜて新しいビデオサンプルを作るための最良の戦略を分析します。
ビデオテッセラクトを他のビデオテッセラクトに挿入するCross-Modal Manifold Cutmix (CMMC)を提案する。
論文 参考訳(メタデータ) (2021-12-07T18:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。