論文の概要: $\mathcal{E}_0$: Enhancing Generalization and Fine-Grained Control in VLA Models via Continuized Discrete Diffusion
- arxiv url: http://arxiv.org/abs/2511.21542v1
- Date: Wed, 26 Nov 2025 16:14:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 13:46:31.818004
- Title: $\mathcal{E}_0$: Enhancing Generalization and Fine-Grained Control in VLA Models via Continuized Discrete Diffusion
- Title(参考訳): $\mathcal{E}_0$:連続離散拡散によるVLAモデルにおける一般化と微粒化制御の促進
- Authors: Zhihao Zhan, Jiaying Zhou, Likui Zhang, Qinhan Lv, Hao Liu, Jusheng Zhang, Weizheng Li, Ziliang Chen, Tianshui Chen, Keze Wang, Liang Lin, Guangrun Wang,
- Abstract要約: 本稿では、量子化されたアクショントークンを反復的にデノケーションするアクション生成を定式化する、連続的な離散拡散フレームワークであるE0を紹介する。
E0は14の多様な環境において最先端のパフォーマンスを達成し、平均して10.7%強のベースラインを達成している。
- 参考スコア(独自算出の注目度): 65.77755100137728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models offer a unified framework for robotic manipulation by integrating visual perception, language understanding, and control generation. Yet existing VLA models still struggle to generalize across diverse tasks, scenes, and camera viewpoints, and often produce coarse or unstable actions. We introduce E0, a continuized discrete diffusion framework that formulates action generation as iterative denoising over quantized action tokens. Compared with continuous diffusion policies, E0 offers two key advantages: (1) discrete action tokens align naturally with the symbolic structure of pretrained VLM/VLA backbones, enabling stronger semantic conditioning; and 2. discrete diffusion matches the true quantized nature of real-world robot control-whose hardware constraints (e.g., encoder resolution, control frequency, actuation latency) inherently discretize continuous signals-and therefore benefits from a Bayes-optimal denoiser that models the correct discrete action distribution, leading to stronger generalization. Compared with discrete autoregressive and mask-based discrete diffusion models, E0 supports a significantly larger and finer-grained action vocabulary and avoids the distributional mismatch introduced by masking-based corruptions-yielding more accurate fine-grained action control. We further introduce a spherical viewpoint perturbation augmentation method to improve robustness to camera shifts without additional data. Experiments on LIBERO, VLABench, and ManiSkill show that E0 achieves state-of-the-art performance across 14 diverse environments, outperforming strong baselines by 10.7% on average. Real-world evaluation on a Franka arm confirms that E0 delivers precise, robust, and transferable manipulation, establishing discrete diffusion as a promising direction for generalizable VLA policy learning.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、視覚認識、言語理解、制御生成を統合することで、ロボット操作のための統一されたフレームワークを提供する。
しかし、既存のVLAモデルは、様々なタスク、シーン、カメラの視点をまたいだ一般化に苦慮し、しばしば粗い、不安定なアクションを生成する。
E0は、量子化されたアクショントークンを反復デノケーションとして動作生成を定式化する、連続的な離散拡散フレームワークである。
1) 離散アクショントークンは、事前訓練されたVLM/VLAバックボーンのシンボル構造と自然に一致し、より強力なセマンティックコンディショニングを可能にする。
離散拡散は、ハードウェア制約(例えばエンコーダの解像度、制御周波数、アクティベーションレイテンシ)が本質的に連続的な信号を離散化し、したがって正しい離散的な動作分布をモデル化するベイズ最適デノイザの恩恵を受けるという現実のロボット制御の真の量子化の性質と一致し、より強力な一般化をもたらす。
離散自己回帰モデルやマスクベースの離散拡散モデルと比較すると、E0はより大きくきめ細かなアクション語彙をサポートし、マスクベースの汚職によって引き起こされる分布ミスマッチを、より正確なきめ細かなアクション制御によって回避する。
さらに、追加データなしでカメラシフトに対するロバスト性を向上させるために、球面視点摂動増大法を導入する。
LIBERO、VLABench、ManiSkillの実験では、E0は14の異なる環境における最先端のパフォーマンスを達成し、ベースラインを平均10.7%上回っている。
フランカ腕における実世界評価は、E0が正確で堅牢で伝達可能な操作を提供し、離散拡散を一般化可能なVLAポリシー学習の有望な方向として確立することを確認する。
関連論文リスト
- Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies [62.653984010274485]
VLA(Vision-Language-Action)モデルは、画像や命令をロボットアクションにマッピングするために、大きな視覚言語バックボーンを適応させる。
prevailingAsは、固定された左から右への順序で自動回帰的にアクションを生成するか、バックボーンの外側で分離または拡散ヘッドをアタッチする。
本稿では離散拡散を伴う離散化作用チャンクをモデル化する統一変換器ポリシである離散拡散VLAを提案する。
論文 参考訳(メタデータ) (2025-08-27T17:39:11Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - DiffCAP: Diffusion-based Cumulative Adversarial Purification for Vision Language Models [45.126261544696185]
視覚言語モデル(VLM)はマルチモーダル理解において顕著な能力を示しているが、摂動への感受性は現実世界のアプリケーションにおける信頼性に重大な脅威をもたらす。
本稿では,VLMにおける敵の汚職を効果的に中和できる新しい拡散型浄化戦略であるDiffCAPを紹介する。
論文 参考訳(メタデータ) (2025-06-04T13:26:33Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。