論文の概要: Unraveling MMDiT Blocks: Training-free Analysis and Enhancement of Text-conditioned Diffusion
- arxiv url: http://arxiv.org/abs/2601.02211v1
- Date: Mon, 05 Jan 2026 15:32:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.248203
- Title: Unraveling MMDiT Blocks: Training-free Analysis and Enhancement of Text-conditioned Diffusion
- Title(参考訳): MMDiTブロックのアンラベリング:テキスト条件拡散の無訓練解析と強化
- Authors: Binglei Li, Mengping Yang, Zhiyu Tan, Junping Zhang, Hao Li,
- Abstract要約: テキスト条件と異なるブロックとそれらの相互作用が合成過程にどのように寄与するかを考察する。
分析の結果,先行ブロックに意味情報が出現し,後続ブロックに細部の詳細が描画されることが判明した。
テキストアライメントの改善, 正確な編集, アクセラレーションのための新しいトレーニングフリー戦略を提案する。
- 参考スコア(独自算出の注目度): 41.431041419460584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent breakthroughs of transformer-based diffusion models, particularly with Multimodal Diffusion Transformers (MMDiT) driven models like FLUX and Qwen Image, have facilitated thrilling experiences in text-to-image generation and editing. To understand the internal mechanism of MMDiT-based models, existing methods tried to analyze the effect of specific components like positional encoding and attention layers. Yet, a comprehensive understanding of how different blocks and their interactions with textual conditions contribute to the synthesis process remains elusive. In this paper, we first develop a systematic pipeline to comprehensively investigate each block's functionality by removing, disabling and enhancing textual hidden-states at corresponding blocks. Our analysis reveals that 1) semantic information appears in earlier blocks and finer details are rendered in later blocks, 2) removing specific blocks is usually less disruptive than disabling text conditions, and 3) enhancing textual conditions in selective blocks improves semantic attributes. Building on these observations, we further propose novel training-free strategies for improved text alignment, precise editing, and acceleration. Extensive experiments demonstrated that our method outperforms various baselines and remains flexible across text-to-image generation, image editing, and inference acceleration. Our method improves T2I-Combench++ from 56.92% to 63.00% and GenEval from 66.42% to 71.63% on SD3.5, without sacrificing synthesis quality. These results advance understanding of MMDiT models and provide valuable insights to unlock new possibilities for further improvements.
- Abstract(参考訳): 変換器をベースとした拡散モデル、特にFLUXやQwen ImageのようなMMDiT(Multimodal Diffusion Transformers)駆動モデルでは、テキスト・ツー・イメージの生成と編集において、スリルのある体験が促進されている。
MMDiTモデルの内部メカニズムを理解するため、既存の手法では位置符号化やアテンション層といった特定のコンポーネントの効果を解析しようとした。
しかし、異なるブロックとそのテキスト条件との相互作用がどのように合成過程に寄与するかを包括的に理解することは、いまだ解明されていない。
本稿では,まず,対応するブロックにおけるテキスト隠蔽状態の除去,無効化,拡張により,各ブロックの機能を包括的に調査するシステムを構築した。
我々の分析はそれを明らかにしている
1) 先述のブロックに意味情報が現れ、詳細が後述のブロックに描画される。
2) 特定のブロックの削除は、通常、テキスト条件を無効にするよりも破壊的ではなく、
3)選択ブロックにおけるテキスト条件の強化は意味的属性を改善する。
これらの観測に基づいて,テキストアライメントの改善,正確な編集,アクセラレーションのための新たなトレーニング不要戦略を提案する。
大規模な実験により,本手法はテキスト・画像生成,画像編集,推論アクセラレーションにおいて,様々なベースラインよりも優れ,柔軟性が保たれていることが示された。
本手法は,T2I-Combench++を56.92%から63.00%,GenEvalを66.42%から71.63%に改善する。
これらの結果はMMDiTモデルの理解を深め、さらなる改善のための新たな可能性を開くための貴重な洞察を提供する。
関連論文リスト
- Yuan-TecSwin: A text conditioned Diffusion model with Swin-transformer blocks [28.895073514108088]
拡散モデルは、そのU字型アーキテクチャと畳み込みニューラルネットワーク(CNN)を基本ブロックとして、画像合成において顕著な能力を示している。
本研究では,Swin-transformerを用いたテキスト条件拡散モデルを提案する。
Yuan-TecSwinはImageNet生成ベンチマークで1.37の最先端のFIDスコアを達成している。
論文 参考訳(メタデータ) (2025-12-18T14:32:06Z) - Feedback Descent: Open-Ended Text Optimization via Pairwise Comparison [48.89195616081196]
Feedback Descentは、構造化されたテキストフィードバックを通じてテキストアーティファクト(プロンプト、コード、分子)を最適化するフレームワークである。
テキスト内学習は、構造化されたフィードバックを勾配のような方向情報に変換し、ターゲットとなる編集を可能にする。
DOCKSTRINGの分子探索ベンチマークにおいて、Feedback Descentは6つのタンパク質標的に対して260,000ドル以上の化合物を持つデータベースの99.9ドルのパーセンタイルを超える新規な薬物様分子を同定した。
論文 参考訳(メタデータ) (2025-11-11T07:14:13Z) - Rare Text Semantics Were Always There in Your Diffusion Transformer [14.05664612353265]
マルチモーダル拡散変換器(MM-DiT)内の稀な意味を探索する簡単な効果的な介入を提案する。
特に、MM-DiTに固有の連係機構は、トランスフォーマーブロック全体の画像埋め込みと並行して、テキスト埋め込みを逐次更新する。
本結果は,テキスト・ツー・ビジョン・タスク,テキスト・ツー・ビデオ,テキスト駆動画像編集など,テキスト・ツー・ビジョン・タスクを効果的に一般化する。
論文 参考訳(メタデータ) (2025-10-04T17:41:24Z) - STRICT: Stress Test of Rendering Images Containing Text [14.124910427202273]
$textbfSTRICT$は、画像内のコヒーレントで命令に沿ったテキストをレンダリングする拡散モデルの能力を強調テストするために設計されたベンチマークである。
プロプライエタリ版やオープンソース版など,いくつかの最先端モデルを評価し,長距離整合性と命令追従能力の持続的制限を明らかにする。
論文 参考訳(メタデータ) (2025-05-25T05:37:08Z) - Enhancing MMDiT-Based Text-to-Image Models for Similar Subject Generation [30.99444221104659]
最新のMMDiT(Multimodal Diffusion Transformer)は,入力テキストプロンプトに類似した意味や外観の複数の主題が含まれている場合,対象の曖昧さや混合に悩まされている。
この問題の原因となる3つの曖昧さは、ブロック間曖昧性、テキスト曖昧性、セマンティック曖昧性である。
そこで本研究では,初期段階におけるテスト時間最適化により,不明瞭な潜伏状態の修復を提案する。
論文 参考訳(メタデータ) (2024-11-27T12:47:06Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models and Large Language Models [52.23899502520261]
本稿では,テキスト構造の学習に特化するために,専用のテキスト拡散モデルを組み込んだARTISTという新しいフレームワークを紹介する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
この歪んだアーキテクチャ設計とトレーニング戦略は、テキストリッチな画像生成のための拡散モデルのテキストレンダリング能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion [61.42732844499658]
本稿では拡散モデルに基づくテキスト誘導画像編集手法を体系的に改善する。
我々は、人間のアノテーションを外部知識として組み込んで、Mask-informed'領域内で編集を限定する。
論文 参考訳(メタデータ) (2024-05-24T07:53:59Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。