論文の概要: DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models
- arxiv url: http://arxiv.org/abs/2512.15713v1
- Date: Wed, 17 Dec 2025 18:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.122098
- Title: DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models
- Title(参考訳): DiffusionVL: どんな自己回帰モデルでも拡散ビジョン言語モデルに変換する
- Authors: Lunbin Zeng, Jingfeng Yao, Bencheng Liao, Hongyuan Tao, Wenyu Liu, Xinggang Wang,
- Abstract要約: 拡散視覚言語モデル (dVLM) は依然として主流モデルよりもかなり遅れている。
我々は、任意の強力なARモデルから変換可能なdVLMファミリーであるDiffusionVLを提案する。
DiffusionVLは、MMMU-Pro(vision)ベンチで34.4%、MME(Cog)ベンチで37.5%という総合的なパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 43.99949601044522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent multimodal research, the diffusion paradigm has emerged as a promising alternative to the autoregressive paradigm (AR), owing to its unique decoding advantages. However, due to the capability limitations of the base diffusion language model, the performance of the diffusion vision language model (dVLM) still lags significantly behind that of mainstream models. This leads to a simple yet fundamental question: Is it possible to construct dVLMs based on existing powerful AR models? In response, we propose DiffusionVL, a dVLM family that could be translated from any powerful AR models. Through simple fine-tuning, we successfully adapt AR pre-trained models into the diffusion paradigm. This approach yields two key observations: (1) The paradigm shift from AR-based multimodal models to diffusion is remarkably effective. (2) Direct conversion of an AR language model to a dVLM is also feasible, achieving performance competitive with LLaVA-style visual-instruction-tuning. Further, we introduce a block-decoding design into dVLMs that supports arbitrary-length generation and KV cache reuse, achieving a significant inference speedup. We conduct a large number of experiments. Despite training with less than 5% of the data required by prior methods, DiffusionVL achieves a comprehensive performance improvement-a 34.4% gain on the MMMU-Pro (vision) bench and 37.5% gain on the MME (Cog.) bench-alongside a 2x inference speedup. The model and code are released at https://github.com/hustvl/DiffusionVL.
- Abstract(参考訳): 近年のマルチモーダル研究において、拡散パラダイムは自己回帰パラダイム(AR)に代わる有望な代替として出現している。
しかし, 基本拡散言語モデルの性能制限のため, 拡散視覚言語モデル (dVLM) の性能は主流モデルよりも著しく遅れている。
既存の強力なARモデルに基づいてdVLMを構築することは可能ですか?
そこで我々は,任意の強力なARモデルから変換可能なdVLMファミリであるDiffusionVLを提案する。
簡単な微調整により,AR事前学習モデルを拡散パラダイムに適応させることに成功した。
1)ARに基づくマルチモーダルモデルから拡散へのパラダイムシフトは極めて効果的である。
2) AR 言語モデルの dVLM への直接変換も実現可能であり,LLaVA スタイルのビジュアルインストラクションチューニングと競合する性能を実現する。
さらに、任意長生成とKVキャッシュの再利用をサポートし、大きな推論高速化を実現するブロックデコーディング設計をdVLMに導入する。
私たちは多くの実験を行います。
DiffusionVLは、従来の手法で必要とされるデータの5%未満のトレーニングにもかかわらず、総合的なパフォーマンス向上を実現しており、MMMU-Proベンチでは34.4%、MMEベンチでは37.5%、推論速度は2倍である。
モデルとコードはhttps://github.com/hustvl/DiffusionVL.comで公開されている。
関連論文リスト
- Breaking the Bottleneck with DiffuApriel: High-Throughput Diffusion LMs with Mamba Backbone [6.76700377196741]
両方向マンバのバックボーン上に構築されたマスク付き拡散言語モデルであるDiffuAprielを紹介する。
この結果から, 双方向状態空間アーキテクチャは, マスク拡散LMの強力なデノイザとして機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-19T23:23:49Z) - LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning [71.98260064022452]
LLaDA-Vは,視覚的インストラクションチューニングとマスク付き拡散モデルを統合した,純粋拡散に基づくマルチモーダル言語モデル(MLLM)である。
代表的な大規模言語拡散モデルであるLLaDAに基づいて構築されたLLaDA-Vには、視覚的特徴を言語埋め込み空間に投影するビジョンエンコーダとコネクタが組み込まれている。
論文 参考訳(メタデータ) (2025-05-22T17:23:26Z) - Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。