論文の概要: LLaDA-VLA: Vision Language Diffusion Action Models
- arxiv url: http://arxiv.org/abs/2509.06932v1
- Date: Mon, 08 Sep 2025 17:45:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.296955
- Title: LLaDA-VLA: Vision Language Diffusion Action Models
- Title(参考訳): LLaDA-VLA:視覚言語拡散行動モデル
- Authors: Yuqing Wen, Hebei Li, Kefan Gu, Yucheng Zhao, Tiancai Wang, Xiaoyan Sun,
- Abstract要約: 自己回帰モデルとは異なるパラダイムである仮面拡散モデルは、テキスト生成やマルチモーダルアプリケーションにおける競合性能を実証し始めている。
LLaDA-VLAは,ロボット操作のための事前訓練d-VLM上に構築された最初のビジョン・ランゲージ・ディフュージョン・アクションモデルである。
- 参考スコア(独自算出の注目度): 23.653152301133925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress of auto-regressive vision-language models (VLMs) has inspired growing interest in vision-language-action models (VLA) for robotic manipulation. Recently, masked diffusion models, a paradigm distinct from autoregressive models, have begun to demonstrate competitive performance in text generation and multimodal applications, leading to the development of a series of diffusion-based VLMs (d-VLMs). However, leveraging such models for robot policy learning remains largely unexplored. In this work, we present LLaDA-VLA, the first Vision-Language-Diffusion-Action model built upon pretrained d-VLMs for robotic manipulation. To effectively adapt d-VLMs to robotic domain, we introduce two key designs: (1) a localized special-token classification strategy that replaces full-vocabulary classification with special action token classification, reducing adaptation difficulty; (2) a hierarchical action-structured decoding strategy that decodes action sequences hierarchically considering the dependencies within and across actions. Extensive experiments demonstrate that LLaDA-VLA significantly outperforms state-of-the-art VLAs on both simulation and real-world robots.
- Abstract(参考訳): 自動回帰視覚言語モデル(VLM)の急速な進歩は、ロボット操作のための視覚言語行動モデル(VLA)への関心が高まっている。
近年、自己回帰モデルとは異なるパラダイムであるマスク拡散モデルは、テキスト生成やマルチモーダルアプリケーションにおける競合性能を実証し始めており、一連の拡散に基づくVLM(d-VLM)の開発につながっている。
しかし、そのようなモデルをロボットポリシー学習に活用することは、まだほとんど未検討である。
本研究では,ロボット操作のための訓練済みd-VLM上に構築された最初のビジョン・ランゲージ・ディフュージョン・アクションモデルであるLLaDA-VLAを提案する。
ロボット領域にd-VLMを効果的に適応させるためには,(1)フルボキャブラリ分類を特殊アクショントークン分類に置き換えるローカライズされた特殊トークン分類戦略,(2)アクションシーケンスを階層的に考慮し動作間の依存関係を復号する階層的行動構造復号戦略,の2つの重要な設計を導入する。
大規模な実験により、LLaDA-VLAはシミュレーションと実世界のロボットの両方で最先端のVLAを大幅に上回っていることが示された。
関連論文リスト
- Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey [45.10095869091538]
膨大な画像テキストデータセットに基づいて事前訓練されたLarge Vision-Language Models (VLM) 上に構築されたVLAモデルが、トランスフォーメーションパラダイムとして登場した。
この調査は、ロボット操作のための大規模なVLMベースのVLAモデルの、最初の体系的で分類指向のレビューを提供する。
論文 参考訳(メタデータ) (2025-08-18T16:45:48Z) - Unified Vision-Language-Action Model [86.68814779303429]
我々は、視覚、言語、行動信号を離散トークンシーケンスとして自動回帰モデル化する、統一的でネイティブなマルチモーダルVLAモデルUniVLAを提案する。
提案手法は, CALVIN, LIBERO, Simplenv-Bridge など, 広く使用されているシミュレーションベンチマークにまたがって, 最新の結果を設定する。
さらに、現実世界のALOHA操作と自律運転に適用可能であることを実証する。
論文 参考訳(メタデータ) (2025-06-24T17:59:57Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。
現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。
既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文 参考訳(メタデータ) (2024-09-19T07:10:18Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。