論文の概要: DreamPlan: Efficient Reinforcement Fine-Tuning of Vision-Language Planners via Video World Models
- arxiv url: http://arxiv.org/abs/2603.16860v1
- Date: Tue, 17 Mar 2026 17:59:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.923875
- Title: DreamPlan: Efficient Reinforcement Fine-Tuning of Vision-Language Planners via Video World Models
- Title(参考訳): DreamPlan: ビデオワールドモデルによるビジョンランゲージプランナーの効率的な強化
- Authors: Emily Yue-Ting Jia, Weiduo Yuan, Tianheng Shi, Vitor Guizilini, Jiageng Mao, Yue Wang,
- Abstract要約: 視覚言語モデル(VLM)の強化微調整のためのフレームワークであるDreamPlanを紹介する。
コストのかかる物理的ロールアウトに頼る代わりに、DreamPlanはまずゼロショットのVLMを利用してインタラクションデータを収集する。
これらの仮想ロールアウトを利用することで、物理およびタスク固有の知識をVLMに効率的に注入する。
- 参考スコア(独自算出の注目度): 17.14390355735799
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic manipulation requires sophisticated commonsense reasoning, a capability naturally possessed by large-scale Vision-Language Models (VLMs). While VLMs show promise as zero-shot planners, their lack of grounded physical understanding often leads to compounding errors and low success rates when deployed in complex real-world environments, particularly for challenging tasks like deformable object manipulation. Although Reinforcement Learning (RL) can adapt these planners to specific task dynamics, directly fine-tuning VLMs via real-world interaction is prohibitively expensive, unsafe, and sample-inefficient. To overcome this bottleneck, we introduce DreamPlan, a novel framework for the reinforcement fine-tuning of VLM planners via video world models. Instead of relying on costly physical rollouts, DreamPlan first leverages the zero-shot VLM to collect exploratory interaction data. We demonstrate that this sub-optimal data is sufficient to train an action-conditioned video generation model, which implicitly captures complex real-world physics. Subsequently, the VLM planner is fine-tuned entirely within the "imagination" of this video world model using Odds Ratio Policy Optimization (ORPO). By utilizing these virtual rollouts, physical and task-specific knowledge is efficiently injected into the VLM. Our results indicate that DreamPlan bridges the gap between semantic reasoning and physical grounding, significantly improving manipulation success rates without the need for large-scale real-world data collection. Our project page is https://psi-lab.ai/DreamPlan/.
- Abstract(参考訳): ロボット操作は、大規模ビジョンランゲージモデル(VLM)によって自然に保持される高度なコモンセンス推論を必要とする。
VLMはゼロショットプランナーとして有望であるが、その基盤となる物理的理解の欠如は、複雑な現実世界環境、特に変形可能なオブジェクト操作のような困難なタスクにおいて、複雑なエラーと成功率の低下につながることが多い。
強化学習(Reinforcement Learning, RL)は、これらのプランナーを特定のタスクダイナミクスに適応させることができるが、実世界のインタラクションを介して直接微調整するVLMは、高価で、安全ではない、サンプル非効率である。
このボトルネックを克服するために,ビデオワールドモデルによるVLMプランナの微調整のための新しいフレームワークであるDreamPlanを紹介した。
コストのかかる物理ロールアウトに頼る代わりに、DreamPlanはまずゼロショットのVLMを利用して探索的なインタラクションデータを収集する。
この準最適データは、複雑な実世界の物理を暗黙的に捉えるアクション条件付きビデオ生成モデルを訓練するのに十分であることを示す。
その後、VLMプランナーはOdds Ratio Policy Optimization (ORPO)を用いて、このビデオワールドモデルの「想像」内で完全に微調整される。
これらの仮想ロールアウトを利用することで、物理およびタスク固有の知識をVLMに効率的に注入する。
以上の結果から,DreamPlanは意味論的推論と物理的根拠のギャップを埋め,大規模な実世界のデータ収集を必要とせずに操作の成功率を大幅に改善することを示した。
私たちのプロジェクトページはhttps://psi-lab.ai/DreamPlan/です。
関連論文リスト
- SIMPACT: Simulation-Enabled Action Planning using Vision-Language Models [60.80050275581661]
VLM(Vision-Language Models)は、目覚しい常識と意味論的推論能力を示す。
物理力学に関する基礎的な理解は欠如している。
テストタイムでシミュレーション可能な ACTion Planning フレームワークである S を提案する。
本手法は,5つの難易度,実世界の剛体および変形可能な操作課題に対して,最先端の性能を示す。
論文 参考訳(メタデータ) (2025-12-05T18:51:03Z) - SmallPlan: Leverage Small Language Models for Sequential Path Planning with Simulation-Powered, LLM-Guided Distillation [22.71952631383849]
SmallPlanは、教師モデルとしてLarge Language Modelsを活用して、ハイレベルパス計画タスクのために軽量なSLM(Small Language Models)をトレーニングする新しいフレームワークである。
LLM誘導微調整(SFT)と強化学習(RL)を併用したシミュレーションによるインターリーブ方式のSLM訓練
本研究は, GPT-4oのような大型モデルと連続経路計画において, 幻覚や過剰適合に悩まされることなく, 微調整SLMが競合することを示す。
論文 参考訳(メタデータ) (2025-05-01T19:44:36Z) - Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation [90.00687889213991]
複雑な長距離ロボット操作問題を解決するには、高度な高レベルの計画能力が必要である。
インターネット上で事前訓練された視覚言語モデル(VLM)は、原則としてそのような問題に対処するためのフレームワークを提供する。
本稿では,多段階操作タスクにおけるVLMの物理推論能力を高める新しいテストタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-23T20:42:15Z) - HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Look Before You Leap: Unveiling the Power of GPT-4V in Robotic
Vision-Language Planning [32.045840007623276]
本稿では,ロボットビジョン・ランゲージ計画(ViLa)について紹介する。
ViLaは、知覚データを推論と計画プロセスに直接統合する。
実ロボットとシミュレーション環境の両方で実施した評価は,既存のLCMプランナよりもViLaの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-29T17:46:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。