論文の概要: Prompt Reinjection: Alleviating Prompt Forgetting in Multimodal Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2602.06886v1
- Date: Fri, 06 Feb 2026 17:19:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.503112
- Title: Prompt Reinjection: Alleviating Prompt Forgetting in Multimodal Diffusion Transformers
- Title(参考訳): プロンプト再注入:多モード拡散変圧器におけるプロンプトフォーミングの軽減
- Authors: Yuxuan Yao, Yuxuan Chen, Hui Li, Kaihui Cheng, Qipeng Guo, Yuwei Sun, Zilong Dong, Jingdong Wang, Siyu Zhu,
- Abstract要約: テキスト・画像生成のためのマルチモーダル拡散変換器(MMDiT)は、テキストと画像の分岐を別々に維持する。
テキスト分岐におけるプロンプト表現のセマンティクスは、深さが増加するにつれて徐々に忘れられていく。
これらの知見に触発されて、我々は、早期層から後層へのプロンプト表現をリジェクションする、トレーニング不要なアプローチを導入し、このことを忘れないようにした。
- 参考スコア(独自算出の注目度): 64.4017917917109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Diffusion Transformers (MMDiTs) for text-to-image generation maintain separate text and image branches, with bidirectional information flow between text tokens and visual latents throughout denoising. In this setting, we observe a prompt forgetting phenomenon: the semantics of the prompt representation in the text branch is progressively forgotten as depth increases. We further verify this effect on three representative MMDiTs--SD3, SD3.5, and FLUX.1 by probing linguistic attributes of the representations over the layers in the text branch. Motivated by these findings, we introduce a training-free approach, prompt reinjection, which reinjects prompt representations from early layers into later layers to alleviate this forgetting. Experiments on GenEval, DPG, and T2I-CompBench++ show consistent gains in instruction-following capability, along with improvements on metrics capturing preference, aesthetics, and overall text--image generation quality.
- Abstract(参考訳): テキスト・ツー・イメージ生成のためのマルチモーダル拡散変換器 (MMDiT) は、テキストトークンと視覚的潜伏者の間の双方向情報の流れを持つ、テキストとイメージの分岐を分離して維持する。
この設定では、テキスト分岐におけるプロンプト表現のセマンティクスは、深さが増加するにつれて徐々に忘れられていく。
さらに,3つの代表的MMDiTs--SD3, SD3.5, FLUX.1に対するこの効果を,テキストブランチの層上の表現の言語的特性を探索することによって検証する。
これらの知見に触発されて、我々は、早期層から後層へのプロンプト表現をリジェクションする、トレーニング不要なアプローチを導入し、このことを忘れないようにした。
GenEval、DPG、T2I-CompBench++の実験では、インストラクションフォロー能力が一貫した向上を示している。
関連論文リスト
- Rare Text Semantics Were Always There in Your Diffusion Transformer [14.05664612353265]
マルチモーダル拡散変換器(MM-DiT)内の稀な意味を探索する簡単な効果的な介入を提案する。
特に、MM-DiTに固有の連係機構は、トランスフォーマーブロック全体の画像埋め込みと並行して、テキスト埋め込みを逐次更新する。
本結果は,テキスト・ツー・ビジョン・タスク,テキスト・ツー・ビデオ,テキスト駆動画像編集など,テキスト・ツー・ビジョン・タスクを効果的に一般化する。
論文 参考訳(メタデータ) (2025-10-04T17:41:24Z) - Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers [56.76198904599581]
テキストと画像の拡散モデルは、言語翻訳において優れているため、モーダル間の注意機構を通じて暗黙的に概念を基礎づける。
近年のマルチモーダル拡散トランスフォーマーでは, 共用画像とテキストトークンを導入し, よりリッチでスケーラブルなクロスモーダルアライメントを実現している。
MM-DiTの注意構造を分析するための体系的フレームワークであるSeg4Diffを導入し,テキストから画像への意味情報の伝達方法に着目した。
論文 参考訳(メタデータ) (2025-09-22T17:59:54Z) - Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。
我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z) - Image Super-Resolution with Text Prompt Diffusion [118.023531454099]
画像SRにテキストプロンプトを導入し、劣化前の情報を提供する。
PromptSRは、最新のマルチモーダル大言語モデル(MLLM)を利用して、低解像度画像からプロンプトを生成する。
実験により、テキストプロンプトをSRに導入すると、合成画像と実世界の画像の両方で印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-24T05:11:35Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。