論文の概要: LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model
- arxiv url: http://arxiv.org/abs/2603.01068v1
- Date: Sun, 01 Mar 2026 12:05:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.491482
- Title: LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model
- Title(参考訳): LLaDA-o: 有効長適応オムニ拡散モデル
- Authors: Zebin You, Xiaolu Zhang, Jun Zhou, Chongxuan Li, Ji-Rong Wen,
- Abstract要約: マルチモーダル理解・生成のための有効長適応オムニ拡散モデルである textbfLLaDA-o を提案する。
MoD上に構築されたデータ中心長適応戦略により,マルチモーダル環境でのフレキシブルなデコーディングを実現する。
実験により、LLaDA-oはマルチモーダル理解および生成ベンチマーク上でのオムニ拡散モデル間の最先端性能を実現することが示された。
- 参考スコア(独自算出の注目度): 77.66516875262963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present \textbf{LLaDA-o}, an effective and length-adaptive omni diffusion model for multimodal understanding and generation. LLaDA-o is built on a Mixture of Diffusion (MoD) framework that decouples discrete masked diffusion for text understanding and continuous diffusion for visual generation, while coupling them through a shared, simple, and efficient attention backbone that reduces redundant computation for fixed conditions. Building on MoD, we further introduce a data-centric length adaptation strategy that enables flexible-length decoding in multimodal settings without architectural changes. Extensive experiments show that LLaDA-o achieves state-of-the-art performance among omni-diffusion models on multimodal understanding and generation benchmarks, and reaches 87.04 on DPG-Bench for text-to-image generation, supporting the effectiveness of unified omni diffusion modeling. Code is available at https://github.com/ML-GSAI/LLaDA-o.
- Abstract(参考訳): マルチモーダル理解と生成のための有効長適応オムニ拡散モデルである「textbf{LLaDA-o}」を提案する。
LLaDA-oは、テキスト理解のための離散マスク拡散と視覚生成のための連続拡散を分離する混合拡散(Mixture of Diffusion、MoD)フレームワーク上に構築され、それらを共有的で単純で効率的な注意バックボーンで結合することで、固定条件の冗長計算を削減している。
MoD上に構築したデータ中心長適応戦略により,アーキテクチャ上の変更を伴わずに,マルチモーダル環境でのフレキシブル長復号が可能となる。
LLaDA-oはマルチモーダル理解および生成ベンチマーク上でのオムニ拡散モデル間の最先端性能を実現し,テキスト・画像生成において DPG-Bench 上で87.04 に達し,統一オムニ拡散モデルの有効性を実証した。
コードはhttps://github.com/ML-GSAI/LLaDA-oで入手できる。
関連論文リスト
- MammothModa2: A Unified AR-Diffusion Framework for Multimodal Understanding and Generation [20.14002849273559]
統一マルチモーダルモデルは、単一のフレームワーク内で理解と生成を統合することを目的としている。
本稿では,自己回帰拡散(AR-Diffusion)フレームワークであるMammothModa2(Mammoth2)を紹介する。
Mammoth2は、公開ベンチマークで強力なテキスト・ツー・イメージと命令ベースの編集性能を提供する。
論文 参考訳(メタデータ) (2025-11-23T03:25:39Z) - Breaking the Bottleneck with DiffuApriel: High-Throughput Diffusion LMs with Mamba Backbone [6.76700377196741]
両方向マンバのバックボーン上に構築されたマスク付き拡散言語モデルであるDiffuAprielを紹介する。
この結果から, 双方向状態空間アーキテクチャは, マスク拡散LMの強力なデノイザとして機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-19T23:23:49Z) - Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding [134.93925077411564]
Lumina-DiMOOは、シームレスなマルチモーダル生成と理解のためのオープンソースの基礎モデルである。
完全に離散的な拡散モデリングを使用して、様々なモードにわたる入力と出力を処理する。
複数のベンチマークで最先端のパフォーマンスを実現し、既存のオープンソース統一マルチモーダルモデルを上回っている。
論文 参考訳(メタデータ) (2025-10-07T17:59:20Z) - Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces [10.85468238780625]
任意の状態空間上に多モード拡散モデルを構築するための新しいフレームワークを提案する。
各モードに対して革新的な分離ノイズスケジュールを導入することにより、単一モデル内で非条件とモード条件の両方を同時に生成することが可能となる。
論文 参考訳(メタデータ) (2025-06-09T16:20:20Z) - LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning [71.98260064022452]
LLaDA-Vは,視覚的インストラクションチューニングとマスク付き拡散モデルを統合した,純粋拡散に基づくマルチモーダル言語モデル(MLLM)である。
代表的な大規模言語拡散モデルであるLLaDAに基づいて構築されたLLaDA-Vには、視覚的特徴を言語埋め込み空間に投影するビジョンエンコーダとコネクタが組み込まれている。
論文 参考訳(メタデータ) (2025-05-22T17:23:26Z) - DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。
ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。
このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文 参考訳(メタデータ) (2025-03-18T17:57:07Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
ノイズ発生過程の設計において、より柔軟性の高い離散拡散(GIDD)を補間する新しいファミリを一般化する。
GIDDの柔軟性をエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索し、サンプル品質を向上する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。
本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。
LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-16T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。