Fugu-MT 論文翻訳(概要): V-Dreamer: Automating Robotic Simulation and Trajectory Synthesis via Video Generation Priors

論文の概要: V-Dreamer: Automating Robotic Simulation and Trajectory Synthesis via Video Generation Priors

arxiv url: http://arxiv.org/abs/2603.18811v1
Date: Thu, 19 Mar 2026 12:00:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-21 18:33:56.988193
Title: V-Dreamer: Automating Robotic Simulation and Trajectory Synthesis via Video Generation Priors
Title（参考訳）: V-Dreamer:ビデオ生成プリミティブによるロボットシミュレーションと軌道合成の自動化
Authors: Songjia He, Zixuan Chen, Hongyu Ding, Dian Shao, Jieqi Shi, Chenxu Li, Jing Huo, Yang Gao,
Abstract要約: V-Dreamerは、オープン語彙でシミュレーション可能な操作環境を生成する、完全に自動化されたフレームワークである。 V-Dreamerは、物理的に接地された3Dシーンを構成する新しい生成パイプラインを使用している。我々は,本ポリシーがシミュレーションにおいて未確認オブジェクトに対して堅牢に一般化し,効率的なsim-to-real転送を実現することを示す。
参考スコア（独自算出の注目度）: 30.872127145725187
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training generalist robots demands large-scale, diverse manipulation data, yet real-world collection is prohibitively expensive, and existing simulators are often constrained by fixed asset libraries and manual heuristics. To bridge this gap, we present V-Dreamer, a fully automated framework that generates open-vocabulary, simulation-ready manipulation environments and executable expert trajectories directly from natural language instructions. V-Dreamer employs a novel generative pipeline that constructs physically grounded 3D scenes using large language models and 3D generative models, validated by geometric constraints to ensure stable, collision-free layouts. Crucially, for behavior synthesis, we leverage video generation models as rich motion priors. These visual predictions are then mapped into executable robot trajectories via a robust Sim-to-Gen visual-kinematic alignment module utilizing CoTracker3 and VGGT. This pipeline supports high visual diversity and physical fidelity without manual intervention. To evaluate the generated data, we train imitation learning policies on synthesized trajectories encompassing diverse object and environment variations. Extensive evaluations on tabletop manipulation tasks using the Piper robotic arm demonstrate that our policies robustly generalize to unseen objects in simulation and achieve effective sim-to-real transfer, successfully manipulating novel real-world objects.
Abstract（参考訳）: 訓練用汎用ロボットは大規模で多様な操作データを必要とするが、実世界の収集は違法に高価であり、既存のシミュレータは固定資産ライブラリや手動のヒューリスティックによって制約されることが多い。このギャップを埋めるために、V-Dreamerは、自然言語命令から直接、オープン語彙、シミュレーション可能な操作環境、および実行可能な専門家軌道を生成する完全に自動化されたフレームワークである。 V-Dreamerは、大きな言語モデルと3D生成モデルを使用して物理的に接地された3Dシーンを構築する新しい生成パイプラインを採用し、安定で衝突のないレイアウトを保証するために、幾何的制約によって検証される。行動合成においては、映像生成モデルをリッチモーション先行として活用する。これらの視覚的予測は、CoTracker3とVGGTを利用したロバストなSim-to-Genビジュアルキネマティックアライメントモジュールを介して、実行可能なロボット軌道にマッピングされる。このパイプラインは、手動で介入することなく、高い視覚的多様性と物理的忠実性をサポートする。生成したデータを評価するために,多種多様な対象および環境変動を含む合成軌道上での模倣学習ポリシーを訓練する。 Piperロボットアームを用いたテーブルトップ操作タスクの広範囲な評価は、我々のポリシーがシミュレーションにおいて見えないオブジェクトに頑健に一般化し、効率的なsim-to-real転送を実現し、新しい現実世界オブジェクトをうまく操作できることを実証している。

関連論文リスト

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping [66.22412592525369]
本稿では,ガウスのSplat表現を生かした実--sim-to-realエンジンを導入し,実-sim-to-realエンジンについて述べる。提案エンジンは, 各種物体の形状と質量値のマス識別において, 高精度かつロバストな性能を実現していることを示す。これらの最適化された質量値は、力覚的なポリシー学習を促進し、オブジェクトの把握において優れた、高いパフォーマンスを達成する。
論文参考訳（メタデータ） (2026-03-01T15:32:04Z)
Mirage2Matter: A Physically Grounded Gaussian World Model from Video [87.9732484393686]
我々は、グラフィック駆動の世界モデリングおよびシミュレーションフレームワークであるSimulate Anythingを紹介する。実世界の環境を3次元ガウススプレイティング(3DGS)による写実的シーン表現に再構築する。次に、生成モデルを利用して、物理的に現実的な表現を復元し、精度校正ターゲットを介してシミュレーション環境に統合する。
論文参考訳（メタデータ） (2026-01-24T07:43:57Z)
AnchorDream: Repurposing Video Diffusion for Embodiment-Aware Robot Data Synthesis [33.90053396451562]
AnchorDreamは、ロボットデータ合成のための事前学習されたビデオ拡散モデルを再利用した、エンボディメントを意識した世界モデルである。本手法は,環境モデリングを必要とせず,大規模で多様な高品質なデータセットにスケールする。実験の結果、生成されたデータは下流の政策学習において一貫した改善をもたらし、シミュレータのベンチマークでは36.4%、現実世界の研究ではほぼ2倍の性能を示した。
論文参考訳（メタデータ） (2025-12-12T18:59:45Z)
GWM: Towards Scalable Gaussian World Models for Robotic Manipulation [53.51622803589185]
本稿では,ロボット操作のための世界モデルGawssian World Model (GWM)を提案する。中心となるのは、潜伏拡散変換器(DiT)と3次元変分オートエンコーダを組み合わせることで、微粒なシーンレベルの将来の状態復元を可能にする。シミュレーションと実世界の実験の両方で、GWMは多様なロボットのアクションに照らされた未来のシーンを正確に予測できる。
論文参考訳（メタデータ） (2025-08-25T02:01:09Z)
RoboPearls: Editable Video Simulation for Robot Manipulation [81.18434338506621]
RoboPearlsは、ロボット操作のための編集可能なビデオシミュレーションフレームワークである。 3D Gaussian Splatting (3DGS)に基づいて構築されたRoboPearlsは、フォトリアリスティックでビュー一貫性のあるシミュレーションの構築を可能にする。我々は、RLBench、COLOSSEUM、Ego4D、Open X-Embodiment、現実世界のロボットなど、複数のデータセットやシーンで広範な実験を行う。
論文参考訳（メタデータ） (2025-06-28T05:03:31Z)
DreamGen: Unlocking Generalization in Robot Learning through Video World Models [120.25799361925387]
DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
論文参考訳（メタデータ） (2025-05-19T04:55:39Z)
URDFormer: A Pipeline for Constructing Articulated Simulation Environments from Real-World Images [39.0780707100513]
そこで本研究では,実世界の画像からキネマティック構造と動的構造を合成したシミュレーションシーンを生成するエンドツーエンドパイプラインを提案する。そこで本研究は,大規模シミュレーション環境のためのパイプラインと,ロバストなロボット制御ポリシをトレーニングするための統合システムの両方を提供する。
論文参考訳（メタデータ） (2024-05-19T20:01:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。