論文の概要: MammothModa2: A Unified AR-Diffusion Framework for Multimodal Understanding and Generation
- arxiv url: http://arxiv.org/abs/2511.18262v1
- Date: Sun, 23 Nov 2025 03:25:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.730325
- Title: MammothModa2: A Unified AR-Diffusion Framework for Multimodal Understanding and Generation
- Title(参考訳): MammothModa2: マルチモーダル理解と生成のための統合AR拡散フレームワーク
- Authors: Tao Shen, Xin Wan, Taicai Chen, Rui Zhang, Junwen Pan, Dawei Lu, Fanding Lei, Zhilin Lu, Yunfei Yang, Chen Cheng, Qi She, Chang Liu, Zhenbang Sun,
- Abstract要約: 統一マルチモーダルモデルは、単一のフレームワーク内で理解と生成を統合することを目的としている。
本稿では,自己回帰拡散(AR-Diffusion)フレームワークであるMammothModa2(Mammoth2)を紹介する。
Mammoth2は、公開ベンチマークで強力なテキスト・ツー・イメージと命令ベースの編集性能を提供する。
- 参考スコア(独自算出の注目度): 20.14002849273559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multimodal models aim to integrate understanding and generation within a single framework, yet bridging the gap between discrete semantic reasoning and high-fidelity visual synthesis remains challenging. We present MammothModa2 (Mammoth2), a unified autoregressive-diffusion (AR-Diffusion) framework designed to effectively couple autoregressive semantic planning with diffusion-based generation. Mammoth2 adopts a serial design: an AR path equipped with generation experts performs global semantic modeling over discrete tokens, while a single-stream Diffusion Transformer (DiT) decoder handles high-fidelity image synthesis. A carefully designed AR-Diffusion feature alignment module combines multi-layer feature aggregation, unified condition encoding, and in-context conditioning to stably align AR's representations with the diffusion decoder's continuous latents. Mammoth2 is trained end-to-end with joint Next-Token Prediction and Flow Matching objectives, followed by supervised fine-tuning and reinforcement learning over both generation and editing. With roughly 60M supervised generation samples and no reliance on pre-trained generators, Mammoth2 delivers strong text-to-image and instruction-based editing performance on public benchmarks, achieving 0.87 on GenEval, 87.2 on DPGBench, and 4.06 on ImgEdit, while remaining competitive with understanding-only backbones (e.g., Qwen3-VL-8B) on multimodal understanding tasks. These results suggest that a carefully coupled AR-Diffusion architecture can provide high-fidelity generation and editing while maintaining strong multimodal comprehension within a single, parameter- and data-efficient model.
- Abstract(参考訳): 統一マルチモーダルモデルは、単一のフレームワーク内で理解と生成を統合することを目的としているが、個別の意味的推論と高忠実度視覚合成のギャップを埋めることは依然として困難である。
本稿では,自己回帰的セマンティックプランニングと拡散に基づく生成を効果的に組み合わせた自己回帰的拡散(AR-Diffusion)フレームワークであるMammothModa2(Mammoth2)を提案する。
Mammoth2はシリアルデザインを採用しており、生成の専門家を備えたARパスは離散トークン上でグローバルなセマンティックモデリングを行い、シングルストリーム拡散変換器(DiT)デコーダは高忠実度画像合成を処理する。
慎重に設計されたAR-Diffusion機能アライメントモジュールは、多層機能アグリゲーション、統一された条件エンコーディング、コンテキスト内条件付けを組み合わせて、ARの表現を拡散デコーダの連続ラテントと安定的に整列させる。
Mammoth2は、Next-Token PredictionとFlow Matchingの目標でエンドツーエンドにトレーニングされ、その後、生成と編集の両方に関して教師付き微調整と強化学習が行われる。
約60Mの教師付き生成サンプルと事前訓練されたジェネレータに依存せず、Mammoth2は、GenEvalで0.87、DPGBenchで87.2、ImgEditで4.06を達成し、マルチモーダル理解タスクで理解専用のバックボーン(例えばQwen3-VL-8B)と競合する。
これらの結果から,AR-Diffusionアーキテクチャは,単一のパラメータ,データ効率のモデルにおいて,強力なマルチモーダル理解を維持しつつ,高忠実度生成と編集を行うことが可能であることが示唆された。
関連論文リスト
- TiDAR: Think in Diffusion, Talk in Autoregression [59.94106070312094]
TiDARは、Diffusionでトークン(Thinking)をドラフトし、最終的な出力(Talking)をAutoRegressivelyにサンプリングするシーケンスレベルのハイブリッドアーキテクチャである。
TiDARはARモデルと品質ギャップを埋める最初のアーキテクチャであり、毎秒4.71倍から5.91倍のトークンを提供する。
論文 参考訳(メタデータ) (2025-11-12T02:59:33Z) - MASC: Boosting Autoregressive Image Generation with a Manifold-Aligned Semantic Clustering [7.928163920344391]
本稿では,コードブックの本質的な構造から階層的な意味木を直接構築する原理的フレームワークを提案する。
MASCはプラグアンドプレイモジュールとして設計されており,本実験の有効性を検証した。
トレーニングを最大57%加速し、生成品質を大幅に改善し、LlamaGen-XLのFIDを2.87から2.58に削減した。
論文 参考訳(メタデータ) (2025-10-05T14:23:51Z) - Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation [63.50827603618498]
マルチモーダル理解と生成のための統一型マスク付き拡散モデル(MDM)であるLavida-Oを提案する。
Lavida-Oは、画像レベルの理解、オブジェクトのグラウンド化、画像編集、高解像度のテキスト・ツー・イメージ合成を可能にする単一のフレームワークを提供する。
Lavida-Oは、RefCOCOオブジェクトグラウンド、GenEvalテキスト画像生成、ImgEdit画像編集など、幅広いベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-09-23T17:05:46Z) - FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。
ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。
本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文 参考訳(メタデータ) (2025-05-26T15:46:53Z) - Nexus-Gen: Unified Image Understanding, Generation, and Editing via Prefilled Autoregression in Shared Embedding Space [9.327655601475605]
共有画像埋め込み空間における画像理解,生成,編集を統一する新しいアーキテクチャであるNexus-Genを提案する。
自己回帰埋め込み予測における過度なエラーの蓄積を軽減するため,新しい自己回帰戦略を提案する。
Nexus-Genは、画像理解、生成、編集タスクにまたがる評価ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-30T06:30:48Z) - DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。
Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文 参考訳(メタデータ) (2024-08-01T08:22:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。