論文の概要: MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation
- arxiv url: http://arxiv.org/abs/2511.09611v3
- Date: Tue, 18 Nov 2025 06:18:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 13:59:16.576854
- Title: MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation
- Title(参考訳): MMaDA-Parallel: 編集・生成のための多モード大拡散言語モデル
- Authors: Ye Tian, Ling Yang, Jiongfan Yang, Anran Wang, Yu Tian, Jiani Zheng, Haochen Wang, Zhiyang Teng, Zhuochen Wang, Yinjie Wang, Yunhai Tong, Mengdi Wang, Xiangtai Li,
- Abstract要約: テキストと画像の出力モダリティの両方を評価するための新しいベンチマークを提案する。
この性能劣化は、生成した推論と最終画像との整合性に強く相関する。
本稿では,テキストと画像間の双方向の連続的相互作用を可能にする並列多モード拡散フレームワークMMaDA-Parallelを提案する。
- 参考スコア(独自算出の注目度): 86.82285754460491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While thinking-aware generation aims to improve performance on complex tasks, we identify a critical failure mode where existing sequential, autoregressive approaches can paradoxically degrade performance due to error propagation. To systematically analyze this issue, we propose ParaBench, a new benchmark designed to evaluate both text and image output modalities. Our analysis using ParaBench reveals that this performance degradation is strongly correlated with poor alignment between the generated reasoning and the final image. To resolve this, we propose a parallel multimodal diffusion framework, MMaDA-Parallel, that enables continuous, bidirectional interaction between text and images throughout the entire denoising trajectory. MMaDA-Parallel is trained with supervised finetuning and then further optimized by Parallel Reinforcement Learning (ParaRL), a novel strategy that applies semantic rewards along the trajectory to enforce cross-modal consistency. Experiments validate that our model significantly improves cross-modal alignment and semantic consistency, achieving a 6.9\% improvement in Output Alignment on ParaBench compared to the state-of-the-art model, Bagel, establishing a more robust paradigm for thinking-aware image synthesis. Our code is open-sourced at https://github.com/tyfeld/MMaDA-Parallel
- Abstract(参考訳): 思考認識生成は複雑なタスクのパフォーマンス向上を目的としているが、既存の逐次的自己回帰アプローチがエラーの伝播による性能低下をパラドックス的に行う重要な障害モードを特定する。
この問題を体系的に解析するために,テキストと画像の出力のモダリティの両方を評価するために設計された新しいベンチマークであるParaBenchを提案する。
ParaBenchを用いて解析したところ,この性能劣化は生成した推論と最終画像との整合性に強く相関していることがわかった。
そこで本研究では,パラレルマルチモーダル拡散フレームワークであるMMaDA-Parallelを提案する。
MMaDA-Parallelは教師付き微調整で訓練され、さらにParallel Reinforcement Learning (ParaRL)によって最適化される。
実験により,ParaBench上での出力アライメントの6.9倍の精度向上を実現し,モーダルアライメントとセマンティック一貫性を著しく向上することを確認した。
私たちのコードはhttps://github.com/tyfeld/MMaDA-Parallelでオープンソース化されています。
関連論文リスト
- THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning [25.605096023894834]
大規模言語モデル (LLM) は数学的推論において顕著な進歩を遂げた。
最近の進歩にもかかわらず、既存の手法は3つの重要な課題に直面している。
我々はこれらの制限を克服するためにTHOR(Tool-Integrated Hierarchical Optimization via RL)を提案する。
提案手法は多種多様なモデルに対して強い一般化を示し,推論モデルと非推論モデルの両方で効果的に機能する。
論文 参考訳(メタデータ) (2025-09-17T07:16:12Z) - Equivariant Image Modeling [17.87342493584631]
自己回帰や拡散アプローチのような現在の生成モデルは、高次元データ分散学習を単純なサブタスクに分解する。
本稿では,サブタスク間で最適化対象を本質的に整合させる,新しい同変画像モデリングフレームワークを提案する。
提案手法は,より少ない計算資源を使用しながら,最先端のARモデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-03-24T17:59:57Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment
for Markup-to-Image Generation [15.411325887412413]
本稿では,FSA-CDM (Contrast-augmented Diffusion Model with Fine-fine Sequence Alignment) という新しいモデルを提案する。
FSA-CDMは、マークアップ・ツー・イメージ生成の性能を高めるために、対照的な正/負のサンプルを拡散モデルに導入する。
異なるドメインの4つのベンチマークデータセットで実験が行われる。
論文 参考訳(メタデータ) (2023-08-02T13:43:03Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Mitigating Modality Collapse in Multimodal VAEs via Impartial
Optimization [7.4262579052708535]
この効果はマルチモーダルVAEトレーニングにおける勾配の相反の結果である,と我々は主張する。
勾配が矛盾する計算グラフのサブグラフを検出する方法を示す。
実験により,本フレームワークは,モジュール間の遅延空間の再構成性能,条件生成,コヒーレンスを著しく向上させることを示した。
論文 参考訳(メタデータ) (2022-06-09T13:29:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。