論文の概要: SDAR-VL: Stable and Efficient Block-wise Diffusion for Vision-Language Understanding
- arxiv url: http://arxiv.org/abs/2512.14068v1
- Date: Tue, 16 Dec 2025 04:12:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.582641
- Title: SDAR-VL: Stable and Efficient Block-wise Diffusion for Vision-Language Understanding
- Title(参考訳): SDAR-VL:視覚言語理解のための安定かつ効率的なブロックワイド拡散
- Authors: Shuang Cheng, Yuhua Jiang, Zineng Zhou, Dawei Liu, Wang Tao, Linfeng Zhang, Biqing Qi, Bowen Zhou,
- Abstract要約: ブロック単位の離散拡散は、並列生成と因果依存性モデリングの間の魅力的なバランスを提供する。
大規模視覚言語理解へのブロックワイド離散拡散の最初の体系的応用である textbfSDAR-VL を提案する。
SDAR-VLは従来のブロック拡散よりも、エンハンチング効率、エンハンスコンバージェンス安定性、およびエンハンサック性能を一貫して改善することを示す。
- 参考スコア(独自算出の注目度): 25.2227348401136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Block-wise discrete diffusion offers an attractive balance between parallel generation and causal dependency modeling, making it a promising backbone for vision-language modeling. However, its practical adoption has been limited by high training cost, slow convergence, and instability, which have so far kept it behind strong autoregressive (AR) baselines. We present \textbf{SDAR-VL}, the first systematic application of block-wise discrete diffusion to large-scale vision-language understanding (VLU), together with an \emph{integrated framework for efficient and stable training}. This framework unifies three components: (1) \textbf{Asynchronous Block-wise Noise Scheduling} to diversify supervision within each batch; (2) \textbf{Effective Mask Ratio Scaling} for unbiased loss normalization under stochastic masking; and (3) a \textbf{Progressive Beta Noise Curriculum} that increases effective mask coverage while preserving corruption diversity. Experiments on 21 single-image, multi-image, and video benchmarks show that SDAR-VL consistently improves \emph{training efficiency}, \emph{convergence stability}, and \emph{task performance} over conventional block diffusion. On this evaluation suite, SDAR-VL sets a new state of the art among diffusion-based vision-language models and, under matched settings, matches or surpasses strong AR baselines such as LLaVA-OneVision as well as the global diffusion baseline LLaDA-V, establishing block-wise diffusion as a practical backbone for VLU.
- Abstract(参考訳): ブロック単位の離散拡散は、並列生成と因果依存性モデリングの間の魅力的なバランスを提供し、視覚言語モデリングの有望なバックボーンとなる。
しかし、その実践的採用は、高いトレーニングコスト、緩やかな収束、不安定さによって制限されており、これまでは強力な自己回帰(AR)ベースラインに留まっていた。
本稿では,大規模視覚言語理解(VLU)に対するブロックワイド離散拡散の最初の体系的応用である「textbf{SDAR-VL}」と,効率的で安定した学習のための「emph{integrated framework」について述べる。
本フレームワークは, 各バッチ内での監視の多様化を図るために, (1) \textbf{Asynchronous Block-wise Noise Scheduling} と (2) 確率マスク下での非バイアス損失正規化のための \textbf{Effective Mask Ratio Scaling} と,(3) 汚職の多様性を保ちながら効果的なマスクカバレッジを増大させる \textbf{Progressive Beta Noise Curriculum} の3つのコンポーネントを統合する。
21のシングルイメージ、マルチイメージ、ビデオベンチマークの実験により、SDAR-VLは従来のブロック拡散よりも一貫して \emph{training efficiency} 、 \emph{convergence stability} 、 \emph{task performance} を改善していることが示された。
この評価スイートでは、SDAR-VLが拡散ベースの視覚言語モデル間で新たな最先端の技術を設定し、一致した設定下では、LLaVA-OneVisionのような強力なARベースラインとグローバル拡散ベースラインLLaDA-Vを超越して、ブロックワイド拡散をVLUの実用的なバックボーンとして確立する。
関連論文リスト
- Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - $\mathcal{E}_0$: Enhancing Generalization and Fine-Grained Control in VLA Models via Continuized Discrete Diffusion [65.77755100137728]
本稿では、量子化されたアクショントークンを反復的にデノケーションするアクション生成を定式化する、連続的な離散拡散フレームワークであるE0を紹介する。
E0は14の多様な環境において最先端のパフォーマンスを達成し、平均して10.7%強のベースラインを達成している。
論文 参考訳(メタデータ) (2025-11-26T16:14:20Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies [62.653984010274485]
VLA(Vision-Language-Action)モデルは、画像や命令をロボットアクションにマッピングするために、大きな視覚言語バックボーンを適応させる。
prevailingAsは、固定された左から右への順序で自動回帰的にアクションを生成するか、バックボーンの外側で分離または拡散ヘッドをアタッチする。
本稿では離散拡散を伴う離散化作用チャンクをモデル化する統一変換器ポリシである離散拡散VLAを提案する。
論文 参考訳(メタデータ) (2025-08-27T17:39:11Z) - DiffCAP: Diffusion-based Cumulative Adversarial Purification for Vision Language Models [45.126261544696185]
視覚言語モデル(VLM)はマルチモーダル理解において顕著な能力を示しているが、摂動への感受性は現実世界のアプリケーションにおける信頼性に重大な脅威をもたらす。
本稿では,VLMにおける敵の汚職を効果的に中和できる新しい拡散型浄化戦略であるDiffCAPを紹介する。
論文 参考訳(メタデータ) (2025-06-04T13:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。