論文の概要: LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model
- arxiv url: http://arxiv.org/abs/2604.20796v1
- Date: Wed, 22 Apr 2026 17:20:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.255177
- Title: LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model
- Title(参考訳): LLaDA2.0-Uni:拡散大言語モデルによるマルチモーダル理解と生成の統合
- Authors: Inclusion AI, Tiwei Bie, Haoxing Chen, Tieyuan Chen, Zhenglin Cheng, Long Cui, Kai Gan, Zhicheng Huang, Zhenzhong Lan, Haoquan Li, Jianguo Li, Tao Lin, Qi Qin, Hongjun Wang, Xiaomei Wang, Haoyuan Wu, Yi Xin, Junbo Zhao,
- Abstract要約: LLaDA2.0-Uniは,マルチモーダル理解と生成をサポートする離散拡散大言語モデル(dLLM)である。
そのアーキテクチャは、完全にセマンティックな離散トークン化器、MoEベースのdLLMバックボーン、拡散復号器を組み合わせたものである。
- 参考スコア(独自算出の注目度): 43.908068133557215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present LLaDA2.0-Uni, a unified discrete diffusion large language model (dLLM) that supports multimodal understanding and generation within a natively integrated framework. Its architecture combines a fully semantic discrete tokenizer, a MoE-based dLLM backbone, and a diffusion decoder. By discretizing continuous visual inputs via SigLIP-VQ, the model enables block-level masked diffusion for both text and vision inputs within the backbone, while the decoder reconstructs visual tokens into high-fidelity images. Inference efficiency is enhanced beyond parallel decoding through prefix-aware optimizations in the backbone and few-step distillation in the decoder. Supported by carefully curated large-scale data and a tailored multi-stage training pipeline, LLaDA2.0-Uni matches specialized VLMs in multimodal understanding while delivering strong performance in image generation and editing. Its native support for interleaved generation and reasoning establishes a promising and scalable paradigm for next-generation unified foundation models. Codes and models are available at https://github.com/inclusionAI/LLaDA2.0-Uni.
- Abstract(参考訳): LLaDA2.0-Uniは、ネイティブ統合フレームワーク内でのマルチモーダル理解と生成をサポートする統合離散拡散大言語モデル(dLLM)である。
そのアーキテクチャは、完全にセマンティックな離散トークン化器、MoEベースのdLLMバックボーン、拡散復号器を組み合わせたものである。
SigLIP-VQを介して連続的な視覚入力を離散化することにより、バックボーン内のテキスト入力と視覚入力の両方に対するブロックレベルのマスク拡散を可能にし、デコーダは視覚トークンを高忠実度画像に再構成する。
推論効率は、バックボーンにおけるプレフィックスアウェア最適化とデコーダにおける数ステップの蒸留により、並列デコードを超えて向上する。
LLaDA2.0-Uniは、慎重にキュレートされた大規模データと調整されたマルチステージトレーニングパイプラインによってサポートされ、画像生成と編集において強力なパフォーマンスを提供しながら、マルチモーダル理解において特別なVLMとマッチングする。
インターリーブド・ジェネレーションと推論のネイティブサポートは、次世代の統一基盤モデルのための有望でスケーラブルなパラダイムを確立します。
コードとモデルはhttps://github.com/inclusionAI/LLaDA2.0-Uni.orgで公開されている。
関連論文リスト
- Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning [71.98260064022452]
LLaDA-Vは,視覚的インストラクションチューニングとマスク付き拡散モデルを統合した,純粋拡散に基づくマルチモーダル言語モデル(MLLM)である。
代表的な大規模言語拡散モデルであるLLaDAに基づいて構築されたLLaDA-Vには、視覚的特徴を言語埋め込み空間に投影するビジョンエンコーダとコネクタが組み込まれている。
論文 参考訳(メタデータ) (2025-05-22T17:23:26Z) - ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement [68.05833403672274]
既存の統一モデルでは、理解、生成、編集という3つの基本的な機能を統一モデルで扱うのに苦労している。
ILLUME+は、きめ細かいテクスチャとテキスト整合したセマンティクスを保存できる統合されたデュアルビジュアルトークンーであるDualViTokを導入した。
また、画像デトケナイザとして拡散モデルを用いて、生成品質と高効率超解像を実現する。
論文 参考訳(メタデータ) (2025-04-02T17:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。