論文の概要: MMaDA: Multimodal Large Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2505.15809v1
- Date: Wed, 21 May 2025 17:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.825936
- Title: MMaDA: Multimodal Large Diffusion Language Models
- Title(参考訳): MMaDA:マルチモーダル大拡散言語モデル
- Authors: Ling Yang, Ye Tian, Bowen Li, Xinchen Zhang, Ke Shen, Yunhai Tong, Mengdi Wang,
- Abstract要約: マルチモーダル拡散基礎モデルの新たなクラスであるMMaDAを紹介する。
テキスト推論、マルチモーダル理解、テキスト・ツー・イメージ生成など、さまざまな領域で優れたパフォーマンスを実現するように設計されている。
- 参考スコア(独自算出の注目度): 47.043301822171195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MMaDA, a novel class of multimodal diffusion foundation models designed to achieve superior performance across diverse domains such as textual reasoning, multimodal understanding, and text-to-image generation. The approach is distinguished by three key innovations: (i) MMaDA adopts a unified diffusion architecture with a shared probabilistic formulation and a modality-agnostic design, eliminating the need for modality-specific components. This architecture ensures seamless integration and processing across different data types. (ii) We implement a mixed long chain-of-thought (CoT) fine-tuning strategy that curates a unified CoT format across modalities. By aligning reasoning processes between textual and visual domains, this strategy facilitates cold-start training for the final reinforcement learning (RL) stage, thereby enhancing the model's ability to handle complex tasks from the outset. (iii) We propose UniGRPO, a unified policy-gradient-based RL algorithm specifically tailored for diffusion foundation models. Utilizing diversified reward modeling, UniGRPO unifies post-training across both reasoning and generation tasks, ensuring consistent performance improvements. Experimental results demonstrate that MMaDA-8B exhibits strong generalization capabilities as a unified multimodal foundation model. It surpasses powerful models like LLaMA-3-7B and Qwen2-7B in textual reasoning, outperforms Show-o and SEED-X in multimodal understanding, and excels over SDXL and Janus in text-to-image generation. These achievements highlight MMaDA's effectiveness in bridging the gap between pretraining and post-training within unified diffusion architectures, providing a comprehensive framework for future research and development. We open-source our code and trained models at: https://github.com/Gen-Verse/MMaDA
- Abstract(参考訳): MMaDAは,テキスト推論,マルチモーダル理解,テキスト・ツー・イメージ生成など,多分野にわたる優れたパフォーマンスを実現するために設計された,新しい多モーダル拡散基盤モデルである。
このアプローチは3つの重要なイノベーションによって区別される。
(i) MMaDAは、共用確率的定式化とモダリティに依存しない設計を備えた統一拡散アーキテクチャを採用し、モダリティ固有のコンポーネントの必要性を排除している。
このアーキテクチャは、異なるデータタイプ間のシームレスな統合と処理を保証する。
(II) モダリティ間で統一されたCoTフォーマットをキュレートする混合長チェーン・オブ・シンクレット(CoT)ファインチューニング戦略を実装した。
テキストドメインと視覚ドメイン間の推論プロセスの整合化により、この戦略は最終強化学習(RL)段階におけるコールドスタートトレーニングを促進し、モデルが複雑なタスクを最初から処理する能力を向上させる。
3) 拡散基盤モデルに特化して最適化された統一ポリシー勾配型RLアルゴリズムUniGRPOを提案する。
多様な報酬モデリングを利用することで、UniGRPOは推論タスクと生成タスクの両方にわたるポストトレーニングを統一し、一貫したパフォーマンス改善を保証する。
実験により,MMaDA-8Bは統合マルチモーダル基礎モデルとして強い一般化能力を示すことが示された。
テキスト推論ではLLaMA-3-7BやQwen2-7Bといった強力なモデルを超え、マルチモーダル理解ではShow-oやSEED-Xより優れ、テキスト画像生成ではSDXLやJanusよりも優れている。
これらの成果は、統合拡散アーキテクチャにおける事前訓練と後訓練のギャップを埋めることにおけるMMaDAの有効性を強調し、将来の研究開発のための包括的なフレームワークを提供する。
私たちはコードとトレーニングされたモデルを、https://github.com/Gen-Verse/MMaDAでオープンソース化しました。
関連論文リスト
- BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset [140.1967962502411]
本稿では,拡散変換器を用いて意味的にリッチなCLIP画像特徴を生成する手法を提案する。
画像理解のための統合モデルファーストトレーニングと画像生成のための逐次事前学習戦略は、実用的な利点をもたらす。
革新的なモデル設計、トレーニングレシピ、データセットに基づいて、最先端の統一マルチモーダルモデルのスイートであるBLIP3-oを開発します。
論文 参考訳(メタデータ) (2025-05-14T17:11:07Z) - Scaling Laws for Native Multimodal Models [53.490942903659565]
我々は、ネイティブマルチモーダルモデルのアーキテクチャ設計を再考し、広範なスケーリング法の研究を行う。
我々の調査では、早期核融合アーキテクチャよりも後期核融合アーキテクチャに固有の利点は示されていない。
また,Mixture of Experts(MoEs)を組み込むことで,モダリティ固有の重みを学習し,性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2025-04-10T17:57:28Z) - Unified Multimodal Discrete Diffusion [78.48930545306654]
複数のモードをまたいだ理解と生成が可能なマルチモーダル生成モデルは、自己回帰(AR)アプローチによって支配される。
共同テキストと画像領域の統一的な生成形式としての離散拡散モデルについて検討する。
テキストと画像の共同理解・生成が可能なUnified Multimodal Discrete Diffusion (UniDisc) モデルを提案する。
論文 参考訳(メタデータ) (2025-03-26T17:59:51Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - On Uni-Modal Feature Learning in Supervised Multi-Modal Learning [21.822251958013737]
マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。
簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-05-02T07:15:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。