論文の概要: Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process
- arxiv url: http://arxiv.org/abs/2511.01718v1
- Date: Mon, 03 Nov 2025 16:26:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.32512
- Title: Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process
- Title(参考訳): 統一拡散VLA:関節離散化拡散過程による視覚・言語・反応モデル
- Authors: Jiayi Chen, Wenxuan Song, Pengxiang Ding, Ziyang Zhou, Han Zhao, Feilong Tang, Donglin Wang, Haoang Li,
- Abstract要約: 視覚言語アクション(VLA)モデルは、自然言語の指示や視覚的な観察を理解することを目的としている。
最近の研究は、将来のイメージを理解作用ループに統合し、共同で理解し、生成し、行動する統合されたVLAを生成する。
性能と効率を最適化する2段階のトレーニングパイプラインと,いくつかの推論時間技術を提案する。
- 参考スコア(独自算出の注目度): 48.63424123606625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) models aim to understand natural language instructions and visual observations and to execute corresponding actions as an embodied agent. Recent work integrates future images into the understanding-acting loop, yielding unified VLAs that jointly understand, generate, and act -- reading text and images and producing future images and actions. However, these models either rely on external experts for modality unification or treat image generation and action prediction as separate processes, limiting the benefits of direct synergy between these tasks. Our core philosophy is to optimize generation and action jointly through a synchronous denoising process, where the iterative refinement enables actions to evolve from initialization, under constant and sufficient visual guidance. We ground this philosophy in our proposed Unified Diffusion VLA and Joint Discrete Denoising Diffusion Process (JD3P), which is a joint diffusion process that integrates multiple modalities into a single denoising trajectory to serve as the key mechanism enabling understanding, generation, and acting to be intrinsically synergistic. Our model and theory are built on a unified tokenized space of all modalities and a hybrid attention mechanism. We further propose a two-stage training pipeline and several inference-time techniques that optimize performance and efficiency. Our approach achieves state-of-the-art performance on benchmarks such as CALVIN, LIBERO, and SimplerEnv with 4$\times$ faster inference than autoregressive methods, and we demonstrate its effectiveness through in-depth analysis and real-world evaluations. Our project page is available at https://irpn-eai.github.io/UD-VLA.github.io/.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、自然言語の指示や視覚的観察を理解し、それに対応するアクションをエンボディエージェントとして実行することを目的としている。
最近の研究は、将来のイメージを理解作用ループに統合し、共同で理解し、生成し、行動する統合されたVLAを生成する -- テキストや画像を読み、将来のイメージやアクションを生成する。
しかしながら、これらのモデルは、モダリティ統一のための外部の専門家に依存するか、イメージ生成とアクション予測を別々のプロセスとして扱い、これらのタスク間の直接的な相乗効果の利点を制限する。
我々の中核的な哲学は、同期的復調プロセスを通じて生成とアクションを協調的に最適化することであり、反復的洗練により、初期化から、一定かつ十分な視覚的ガイダンスの下で、アクションを進化させることができる。
我々は、この哲学を、統一拡散VLAとJD3P(Joint Discrete Denoising Diffusion Process)に基礎を置いている。
我々のモデルと理論は、すべてのモダリティとハイブリッドアテンション機構の統一されたトークン化空間の上に構築されている。
さらに、パフォーマンスと効率を最適化する2段階のトレーニングパイプラインと、いくつかの推論タイム技術を提案する。
提案手法は, CALVIN, LIBERO, SimplerEnvなどのベンチマークにおいて, 自己回帰法よりも4$\times$高速な推論を実現する。
私たちのプロジェクトページはhttps://irpn-eai.github.io/UD-VLA.github.io/で公開されています。
関連論文リスト
- Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - Video-STAR: Reinforcing Open-Vocabulary Action Recognition with Tools [41.993750134878766]
Video-STARは、オープン語彙行動認識のためのツール強化学習とコンテキストサブモーション分解を調和させるフレームワークである。
アクションをモノリシックなエンティティとして扱う従来の方法とは異なり、我々のアプローチは、アクションをきめ細かなマッチングのための差別的なサブモーションに革新的に分解する。
本手法は,テキスト中心の推論から視覚的接地推論へ伝達する,明示的な監督を伴わずに,外部ツールを自律的に活用し,サブモーションパターンの優先順位付けを行う。
論文 参考訳(メタデータ) (2025-10-09T17:20:44Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Denoising-Contrastive Alignment for Continuous Sign Language Recognition [22.800767994061175]
連続手話認識は,手話ビデオからテキストグルースへの符号認識を目的としている。
現在のクロスモダリティアライメントパラダイムは、ビデオ表現を導くためにテキスト文法の役割を無視することが多い。
本稿では,映像の表現性を高めるために,Denoising-Contrastive Alignmentパラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-05T15:20:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。