論文の概要: Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies
- arxiv url: http://arxiv.org/abs/2508.20072v1
- Date: Wed, 27 Aug 2025 17:39:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.723585
- Title: Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies
- Title(参考訳): 離散拡散VLA:視覚・言語・行動政策における離散拡散による行動復号
- Authors: Zhixuan Liang, Yizhuo Li, Tianshuo Yang, Chengyue Wu, Sitong Mao, Liuao Pei, Xiaokang Yang, Jiangmiao Pang, Yao Mu, Ping Luo,
- Abstract要約: 本稿では、離散化作用チャンクを離散拡散でモデル化し、VLMバックボーンと同じエントロピー目的で訓練するシングルトランスフォーマーポリシーを提案する。
本手法は, 簡単な動作要素をハードなものよりも先に解決する適応的復号法を実現する。
この統合デコーダは、事前訓練された視覚言語を保存し、並列デコードをサポートし、自己回帰的ボトルネックを破り、機能評価の回数を減らす。
- 参考スコア(独自算出の注目度): 64.20587321033149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models adapt large vision-language backbones to map images and instructions to robot actions. However, prevailing VLA decoders either generate actions autoregressively in a fixed left-to-right order or attach continuous diffusion or flow matching heads outside the backbone, demanding specialized training and iterative sampling that hinder a unified, scalable architecture. We present Discrete Diffusion VLA, a single-transformer policy that models discretized action chunks with discrete diffusion and is trained with the same cross-entropy objective as the VLM backbone. The design retains diffusion's progressive refinement paradigm while remaining natively compatible with the discrete token interface of VLMs. Our method achieves an adaptive decoding order that resolves easy action elements before harder ones and uses secondary remasking to revisit uncertain predictions across refinement rounds, which improves consistency and enables robust error correction. This unified decoder preserves pretrained vision language priors, supports parallel decoding, breaks the autoregressive bottleneck, and reduces the number of function evaluations. Discrete Diffusion VLA achieves 96.3% avg. SR on LIBERO, 71.2% visual matching on SimplerEnv Fractal and 49.3% overall on SimplerEnv Bridge, improving over both autoregressive and continuous diffusion baselines. These findings indicate that discrete-diffusion action decoder supports precise action modeling and consistent training, laying groundwork for scaling VLA to larger models and datasets.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、画像や指示をロボットアクションにマッピングするために、大きな視覚言語バックボーンを適応させる。
しかしながら、一般的なVLAデコーダは、固定された左から右への順序で自動回帰的にアクションを生成するか、バックボーンの外に連続的な拡散またはフローマッチングヘッドを付加し、統一されたスケーラブルなアーキテクチャを妨げる特別なトレーニングと反復的なサンプリングを要求する。
本稿では、離散化作用チャンクを離散拡散でモデル化し、VLMバックボーンと同じクロスエントロピー目的で訓練する単一変換器ポリシである離散拡散VLAを提案する。
この設計は拡散の進歩的な改善パラダイムを維持しつつ、VLMの離散トークンインタフェースとネイティブに互換性を維持している。
本手法は,難易度よりも先に簡単な動作要素を解き,不確実な予測を改良ラウンドで再検討し,整合性を向上し,堅牢な誤り訂正を可能にする適応的復号命令を実現する。
この統合デコーダは、事前訓練された視覚言語を保存し、並列デコードをサポートし、自己回帰的ボトルネックを破り、機能評価の回数を減らす。
離散拡散VLAは96.3%のavgを達成する。
LIBEROのSR、SimplerEnv Fractalの71.2%、SimplerEnv Bridgeの49.3%、自動回帰ベースラインと連続拡散ベースラインの改善。
これらの結果から,離散拡散動作デコーダは高精度な動作モデリングと一貫したトレーニングをサポートし,VLAを大規模モデルやデータセットに拡張するための基盤となることが示唆された。
関連論文リスト
- NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows [75.70583906344815]
拡散モデルは、複雑なマルチモーダルな動作分布をモデル化できるため、アクションデコーダとして広く採用されている。
我々は、VLA(Vision-Language-Action)モデルのための、高速で表現力のある変化型デコーダであるNinAを提案する。
実験の結果,NinAは同一のトレーニング体制下での拡散法と同等の性能を示し,精度は大幅に向上した。
論文 参考訳(メタデータ) (2025-08-23T00:02:15Z) - Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.80384464922147]
ACDiTはブロックワイド条件拡散変換器である。
トークン単位の自己回帰とフルシーケンス拡散のフレキシブルな関係を提供する。
本稿では,映像生成タスクにおける自己回帰ベースラインの中で,ACDiTが最良であることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:13:20Z) - Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via
Self-supervised Learning [42.009856923352864]
拡散モデルは、シーケンス・モデリング方式で行動的クローニングに採用されている。
拡散に基づくビジュモータポリシー学習の簡易かつ効果的な手法であるクロスウェイ拡散を提案する。
シミュレーションおよび実世界のロボット作業におけるクロスウェイ拡散の有効性を実証した。
論文 参考訳(メタデータ) (2023-07-04T17:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。