論文の概要: Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2506.07986v2
- Date: Wed, 11 Jun 2025 04:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 16:13:48.034398
- Title: Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers
- Title(参考訳): 多モード拡散変圧器におけるクロスモーダル相互作用の再考
- Authors: Zhengyao Lv, Tianlin Pan, Chenyang Si, Zhaoxi Chen, Wangmeng Zuo, Ziwei Liu, Kwan-Yee K. Wong,
- Abstract要約: マルチモーダル拡散変換器 (MM-DiT) はテキスト駆動型視覚生成において顕著な進歩を遂げている。
マルチモーダルインタラクションを動的に再バランスするパラメータ効率向上手法である textbfTemperature-Adjusted Cross-modal Attention (TACA) を提案する。
本研究は,テキスト・画像拡散モデルにおける意味的忠実度向上における相互注意のバランスの重要性を強調した。
- 参考スコア(独自算出の注目度): 79.94246924019984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Diffusion Transformers (MM-DiTs) have achieved remarkable progress in text-driven visual generation. However, even state-of-the-art MM-DiT models like FLUX struggle with achieving precise alignment between text prompts and generated content. We identify two key issues in the attention mechanism of MM-DiT, namely 1) the suppression of cross-modal attention due to token imbalance between visual and textual modalities and 2) the lack of timestep-aware attention weighting, which hinder the alignment. To address these issues, we propose \textbf{Temperature-Adjusted Cross-modal Attention (TACA)}, a parameter-efficient method that dynamically rebalances multimodal interactions through temperature scaling and timestep-dependent adjustment. When combined with LoRA fine-tuning, TACA significantly enhances text-image alignment on the T2I-CompBench benchmark with minimal computational overhead. We tested TACA on state-of-the-art models like FLUX and SD3.5, demonstrating its ability to improve image-text alignment in terms of object appearance, attribute binding, and spatial relationships. Our findings highlight the importance of balancing cross-modal attention in improving semantic fidelity in text-to-image diffusion models. Our codes are publicly available at \href{https://github.com/Vchitect/TACA}
- Abstract(参考訳): マルチモーダル拡散変換器 (MM-DiT) はテキスト駆動型視覚生成において顕著な進歩を遂げている。
しかし、FLUXのような最先端のMM-DiTモデルでさえ、テキストプロンプトと生成されたコンテンツの間の正確なアライメントを達成するのに苦労している。
MM-DiTの注意機構における2つの重要な問題、すなわち
1【視覚的・テキスト的モダリティのトークン不均衡による横断的注意の抑制】
2) 時間的注意重み付けの欠如はアライメントを妨げた。
これらの問題に対処するため,温度スケーリングと時間ステップ依存調整を通じてマルチモーダル相互作用を動的に再バランスさせるパラメータ効率の高いTACA(textbf{Temperature-Adjusted Cross-modal Attention)を提案する。
LoRAファインチューニングと組み合わせると、TACAは最小計算オーバーヘッドでT2I-CompBenchベンチマークのテキストイメージアライメントを大幅に向上する。
我々は、FLUXやSD3.5のような最先端モデル上でTACAを試験し、オブジェクトの外観、属性バインディング、空間的関係において画像テキストアライメントを改善する能力を実証した。
本研究は,テキストと画像の拡散モデルにおける意味的忠実度向上における相互注意のバランスの重要性を強調した。
我々のコードは \href{https://github.com/Vchitect/TACA} で公開されている。
関連論文リスト
- BSAFusion: A Bidirectional Stepwise Feature Alignment Network for Unaligned Medical Image Fusion [11.306367018981678]
本稿では,両方向ステップワイド・フィーチャーアライメントとフュージョンという,不整合な医用画像融合法を提案する。
特徴アライメントの観点では、BSFA-Fは双方向の段階的なアライメント変形場予測戦略を採用している。
複数のデータセットにまたがる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-12-11T02:56:23Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching [48.04807531821024]
本稿では,画像からテキストまでの概念マッチング機構を備えた,エンドツーエンド拡散モデルの微調整戦略であるCoMatを提案する。
画像キャプションモデルを利用して画像とテキストのアライメントを測定し、拡散モデルを導いて無視トークンを再検討する。
画像や人間の嗜好データがない場合は、20KテキストプロンプトだけでSDXLを微調整し、CoMat-SDXLを得る。
論文 参考訳(メタデータ) (2024-04-04T17:59:46Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。