論文の概要: Rare Text Semantics Were Always There in Your Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2510.03886v1
- Date: Sat, 04 Oct 2025 17:41:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.320903
- Title: Rare Text Semantics Were Always There in Your Diffusion Transformer
- Title(参考訳): 拡散変換器には常にテキストのセマンティクスがある
- Authors: Seil Kang, Woojung Han, Dayun Ju, Seong Jae Hwang,
- Abstract要約: マルチモーダル拡散変換器(MM-DiT)内の稀な意味を探索する簡単な効果的な介入を提案する。
特に、MM-DiTに固有の連係機構は、トランスフォーマーブロック全体の画像埋め込みと並行して、テキスト埋め込みを逐次更新する。
本結果は,テキスト・ツー・ビジョン・タスク,テキスト・ツー・ビデオ,テキスト駆動画像編集など,テキスト・ツー・ビジョン・タスクを効果的に一般化する。
- 参考スコア(独自算出の注目度): 14.05664612353265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Starting from flow- and diffusion-based transformers, Multi-modal Diffusion Transformers (MM-DiTs) have reshaped text-to-vision generation, gaining acclaim for exceptional visual fidelity. As these models advance, users continually push the boundary with imaginative or rare prompts, which advanced models still falter in generating, since their concepts are often too scarce to leave a strong imprint during pre-training. In this paper, we propose a simple yet effective intervention that surfaces rare semantics inside MM-DiTs without additional training steps, data, denoising-time optimization, or reliance on external modules (e.g., large language models). In particular, the joint-attention mechanism intrinsic to MM-DiT sequentially updates text embeddings alongside image embeddings throughout transformer blocks. We find that by mathematically expanding representational basins around text token embeddings via variance scale-up before the joint-attention blocks, rare semantics clearly emerge in MM-DiT's outputs. Furthermore, our results generalize effectively across text-to-vision tasks, including text-to-image, text-to-video, and text-driven image editing. Our work invites generative models to reveal the semantics that users intend, once hidden yet ready to surface.
- Abstract(参考訳): フローおよび拡散に基づく変換器から始めて、多モード拡散変換器(MM-DiT)はテキスト・ツー・ビジョン生成を再構築し、例外的な視覚的忠実さを称賛した。
これらのモデルが進むにつれて、ユーザーは想像力や希少なプロンプトで境界を押し続ける。
本稿では,MM-DiT内の希少な意味を学習ステップやデータ,デノナイジング時間最適化,外部モジュール(例えば,大規模言語モデル)に依存しない単純な効果的な介入を提案する。
特に、MM-DiTに固有の連係機構は、トランスフォーマーブロック全体の画像埋め込みと並行して、テキスト埋め込みを逐次更新する。
テキストトークンの埋め込みに関する表現的階層を,共同注意ブロックの前に分散スケールアップして数学的に拡張することにより,MM-DiTの出力に稀な意味論が明らかに現れることがわかった。
さらに,テキスト・ツー・ビジョン・タスク,テキスト・ツー・ビデオ,テキスト・トゥ・ビデオ,テキスト・ライクな画像編集など,テキスト・ツー・ビジョンのタスクを効果的に一般化する。
私たちの仕事は、ユーザーが意図した意味を明らかにするために生成モデルを招待します。
関連論文リスト
- Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers [56.76198904599581]
テキストと画像の拡散モデルは、言語翻訳において優れているため、モーダル間の注意機構を通じて暗黙的に概念を基礎づける。
近年のマルチモーダル拡散トランスフォーマーでは, 共用画像とテキストトークンを導入し, よりリッチでスケーラブルなクロスモーダルアライメントを実現している。
MM-DiTの注意構造を分析するための体系的フレームワークであるSeg4Diffを導入し,テキストから画像への意味情報の伝達方法に着目した。
論文 参考訳(メタデータ) (2025-09-22T17:59:54Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。