Fugu-MT 論文翻訳(概要): Multi-View Video Diffusion Policy: A 3D Spatio-Temporal-Aware Video Action Model

論文の概要: Multi-View Video Diffusion Policy: A 3D Spatio-Temporal-Aware Video Action Model

arxiv url: http://arxiv.org/abs/2604.03181v1
Date: Fri, 03 Apr 2026 16:57:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 17:20:24.542779
Title: Multi-View Video Diffusion Policy: A 3D Spatio-Temporal-Aware Video Action Model
Title（参考訳）: マルチビュービデオ拡散ポリシー:3次元時空間対応ビデオアクションモデル
Authors: Peiyan Li, Yixiang Chen, Yuan Xu, Jiabing Yang, Xiangnan Wu, Jun Guo, Nan Sun, Long Qian, Xinghang Li, Xin Xiao, Jing Liu, Nianfeng Liu, Tao Kong, Yan Huang, Liang Wang, Tieniu Tan,
Abstract要約: MV-VDPは3次元環境を協調的にモデル化する多視点ビデオポリシーである。 MV-VDPはデータ効率、堅牢、一般化可能、解釈可能な操作を可能にする。 Meta-Worldと現実世界のロボットプラットフォームの実験は、MV-VDPがビデオ予測ベース、3Dベース、視覚言語アクションモデルより一貫して優れていることを示した。
参考スコア（独自算出の注目度）: 43.80385042752741
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Robotic manipulation requires understanding both the 3D spatial structure of the environment and its temporal evolution, yet most existing policies overlook one or both. They typically rely on 2D visual observations and backbones pretrained on static image--text pairs, resulting in high data requirements and limited understanding of environment dynamics. To address this, we introduce MV-VDP, a multi-view video diffusion policy that jointly models the 3D spatio-temporal state of the environment. The core idea is to simultaneously predict multi-view heatmap videos and RGB videos, which 1) align the representation format of video pretraining with action finetuning, and 2) specify not only what actions the robot should take, but also how the environment is expected to evolve in response to those actions. Extensive experiments show that MV-VDP enables data-efficient, robust, generalizable, and interpretable manipulation. With only ten demonstration trajectories and without additional pretraining, MV-VDP successfully performs complex real-world tasks, demonstrates strong robustness across a range of model hyperparameters, generalizes to out-of-distribution settings, and predicts realistic future videos. Experiments on Meta-World and real-world robotic platforms demonstrate that MV-VDP consistently outperforms video-prediction--based, 3D-based, and vision--language--action models, establishing a new state of the art in data-efficient multi-task manipulation.
Abstract（参考訳）: ロボット操作は環境の3次元空間構造と時間的進化の両方を理解する必要があるが、既存の政策は1つか両方を見落としている。それらは通常、静的な画像ペアに事前訓練された2次元の視覚観察とバックボーンに依存し、高いデータ要求と環境ダイナミクスの限定的な理解をもたらす。そこで本稿では,環境の3次元時空間状態を共同でモデル化する多視点ビデオ拡散ポリシーであるMV-VDPを紹介する。コアとなるアイデアは、マルチビューのヒートマップビデオとRGBビデオの同時予測だ。 1)ビデオ事前訓練の表現形式をアクション微調整と整合させ, 2)ロボットが行うべき行動だけでなく,その行動に応じて環境がどのように進化するかを規定する。 MV-VDPはデータ効率、堅牢、一般化可能、解釈可能な操作を可能にする。 10のデモ軌道だけで、追加の事前訓練がなければ、MV-VDPは複雑な現実世界のタスクをうまく実行し、モデルハイパーパラメータの範囲で強い堅牢性を示し、配布外設定に一般化し、現実的な将来のビデオを予測する。 Meta-Worldと現実世界のロボットプラットフォームの実験では、MV-VDPはビデオ予測ベース、3Dベース、視覚言語-アクションモデルより一貫して優れており、データ効率のマルチタスク操作における新たな最先端技術を確立している。

関連論文リスト

GigaWorld-Policy: An Efficient Action-Centered World--Action Model [50.107640832046464]
GigaWorld-Policyはアクション中心のWAMで、2Dピクセルアクションのダイナミクスを学習し、オプションのビデオ生成で効率的なアクションデコーディングを可能にする。実世界のロボットプラットフォームでの実験結果によると、GigaWorld-Policyは主要なWAMベースラインであるMotusの9倍高速で動作する。
論文参考訳（メタデータ） (2026-03-18T00:52:02Z)
MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model [83.12400850233034]
人間と物体の相互作用(Human-Object Interaction,HOI)ビデオのリアルな動きによる再現は、デジタル人間の創造のフロンティアである。マルチビュー参照条件とビデオ基盤モデルをブリッジする2段階のHOIビデオ再現フレームワークであるMVHOIを提案する。本フレームワークは,複雑なオブジェクト操作による長期HOIビデオの生成において,優れた性能を示す。
論文参考訳（メタデータ） (2026-03-16T00:43:38Z)
Causal World Modeling for Robot Control [56.31803788587547]
ビデオワールドモデルは、アクションと視覚力学の因果関係を理解することによって、近い将来に想像できる能力を提供する。本稿では,フレーム予測とポリシ実行を同時に学習する自動回帰拡散フレームワークLingBot-VAを紹介する。シミュレーションベンチマークと実世界のシナリオの両方でモデルを評価したところ、長距離操作、ポストトレーニングにおけるデータ効率、新しい構成への強力な一般化性などに大きな可能性を示唆している。
論文参考訳（メタデータ） (2026-01-29T17:07:43Z)
mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文参考訳（メタデータ） (2025-12-17T18:47:31Z)
DynaRend: Learning 3D Dynamics via Masked Future Rendering for Robotic Manipulation [52.136378691610524]
本稿では、3次元認識と動的インフォームド三面体特徴を学習する表現学習フレームワークDynaRendを紹介する。マルチビューRGB-Dビデオデータに基づく事前トレーニングにより、DynaRendは空間幾何学、将来のダイナミクス、タスク意味を統合された三面体表現で共同でキャプチャする。我々は、RLBenchとColosseumという2つの挑戦的なベンチマークでDynaRendを評価し、政策成功率、環境摂動の一般化、様々な操作タスクにおける実世界の適用性などを大幅に改善した。
論文参考訳（メタデータ） (2025-10-28T10:17:11Z)
EMMA: Generalizing Real-World Robot Manipulation via Generative Visual Transfer [35.27100635173712]
視覚言語アクション(VLA)モデルは、堅牢な一般化を達成するために、多種多様なトレーニングデータに依存している。本稿では,VLAポリシー拡張フレームワークであるEmbodied Manipulation Media Adaptation (EMMA)を提案する。 DreamTransferは、3D構造や幾何学的妥当性を損なうことなく、ロボットビデオのテキスト制御による視覚的編集、前景、背景、照明条件の変換を可能にする。 AdaMixは、動的にトレーニングバッチを再重み付けして、知覚的あるいは運動学的に困難なサンプルに最適化する、ハードサンプル対応のトレーニング戦略である。
論文参考訳（メタデータ） (2025-09-26T14:34:44Z)
Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations [19.45821593625599]
ビデオ拡散モデル(VDM)は、将来のフレームを予測し、物理的な世界を強く理解する能力を示す。本稿では,VDM内の将来予測表現を条件とした暗黙的逆ダイナミクスモデル(VPP)を学習するビデオ予測ポリシーを提案する。 VPPはCalvin ABC-Dの一般化ベンチマークを18.6%改善した。
論文参考訳（メタデータ） (2024-12-19T12:48:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。