論文の概要: Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone
- arxiv url: http://arxiv.org/abs/2512.22615v2
- Date: Sun, 04 Jan 2026 07:15:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 14:31:43.625873
- Title: Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone
- Title(参考訳): Dream-VLとDream-VLA: 拡散言語モデルバックボーンを用いたオープンビジョンランゲージとビジョンランゲージ-アクションモデル
- Authors: Jiacheng Ye, Shansan Gong, Jiahui Gao, Junming Fan, Shuang Wu, Wei Bi, Haoli Bai, Lifeng Shang, Lingpeng Kong,
- Abstract要約: 拡散型大規模言語モデルに基づく視覚言語モデルの構築の可能性について検討する。
本稿では,最先端の性能を実現するオープン拡散型VLMであるDream-VLを紹介する。
我々はDream-VLAというdLLMベースのビジョン・ランゲージ・アクション・モデルを構築し、オープンなロボットデータセット上で連続的な事前トレーニングによって開発する。
- 参考スコア(独自算出の注目度): 93.0075191741086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While autoregressive Large Vision-Language Models (VLMs) have achieved remarkable success, their sequential generation often limits their efficacy in complex visual planning and dynamic robotic control. In this work, we investigate the potential of constructing Vision-Language Models upon diffusion-based large language models (dLLMs) to overcome these limitations. We introduce Dream-VL, an open diffusion-based VLM (dVLM) that achieves state-of-the-art performance among previous dVLMs. Dream-VL is comparable to top-tier AR-based VLMs trained on open data on various benchmarks but exhibits superior potential when applied to visual planning tasks. Building upon Dream-VL, we introduce Dream-VLA, a dLLM-based Vision-Language-Action model (dVLA) developed through continuous pre-training on open robotic datasets. We demonstrate that the natively bidirectional nature of this diffusion backbone serves as a superior foundation for VLA tasks, inherently suited for action chunking and parallel generation, leading to significantly faster convergence in downstream fine-tuning. Dream-VLA achieves top-tier performance of 97.2% average success rate on LIBERO, 71.4% overall average on SimplerEnv-Bridge, and 60.5% overall average on SimplerEnv-Fractal, surpassing leading models such as $π_0$ and GR00T-N1. We also validate that dVLMs surpass AR baselines on downstream tasks across different training objectives. We release both Dream-VL and Dream-VLA to facilitate further research in the community.
- Abstract(参考訳): 自己回帰型Large Vision-Language Models (VLM) は目覚ましい成功を収めているが、そのシーケンシャル世代は複雑な視覚計画と動的ロボット制御においてその効力を制限していることが多い。
本研究では,拡散型大規模言語モデル (dLLM) に基づく視覚言語モデルの構築の可能性について検討する。
本稿では,Dream-VLについて紹介する。Dream-VLは,従来のdVLMの最先端性能を実現するオープン拡散型VLM(dVLM)である。
Dream-VLは、さまざまなベンチマークでオープンデータでトレーニングされたトップレベルのARベースのVLMに匹敵するが、視覚的な計画タスクに適用した場合に優れた可能性を示す。
Dream-VLをベースとしたDream-VLA(Dream-VLA)は、オープンなロボットデータセット上で連続的な事前トレーニングによって開発された、dLLMベースのVision-Language-Actionモデルである。
この拡散バックボーンのネイティブな双方向性は、本質的にアクションチャンキングと並列生成に適したVLAタスクの優れた基礎として機能し、下流の微調整における収束を著しく速くすることを示した。
Dream-VLA は LIBERO で97.2%、SimplerEnv-Bridge で71.4%、SimplerEnv-Fractal で60.5%、主要なモデルである$π_0$ や GR00T-N1 を上回った。
また,dVLM が下流タスクにおける AR ベースラインを超えることが,異なるトレーニング目標を越えて証明されている。
コミュニティにおけるさらなる研究を促進するため、Dream-VLとDream-VLAをリリースする。
関連論文リスト
- dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - LLaDA-VLA: Vision Language Diffusion Action Models [23.653152301133925]
自己回帰モデルとは異なるパラダイムである仮面拡散モデルは、テキスト生成やマルチモーダルアプリケーションにおける競合性能を実証し始めている。
LLaDA-VLAは,ロボット操作のための事前訓練d-VLM上に構築された最初のビジョン・ランゲージ・ディフュージョン・アクションモデルである。
論文 参考訳(メタデータ) (2025-09-08T17:45:40Z) - Unified Vision-Language-Action Model [86.68814779303429]
我々は、視覚、言語、行動信号を離散トークンシーケンスとして自動回帰モデル化する、統一的でネイティブなマルチモーダルVLAモデルUniVLAを提案する。
提案手法は, CALVIN, LIBERO, Simplenv-Bridge など, 広く使用されているシミュレーションベンチマークにまたがって, 最新の結果を設定する。
さらに、現実世界のALOHA操作と自律運転に適用可能であることを実証する。
論文 参考訳(メタデータ) (2025-06-24T17:59:57Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。
現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。
既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文 参考訳(メタデータ) (2024-09-19T07:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。