論文の概要: Rethinking Global Text Conditioning in Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2602.09268v1
- Date: Mon, 09 Feb 2026 23:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.27734
- Title: Rethinking Global Text Conditioning in Diffusion Transformers
- Title(参考訳): 拡散変換器におけるグローバルテキストコンディショニングの再考
- Authors: Nikita Starodubcev, Daniil Pakhomov, Zongze Wu, Ilya Drobyshevskiy, Yuchen Liu, Zhonghao Wang, Yuqian Zhou, Zhe Lin, Dmitry Baranchuk,
- Abstract要約: 拡散変換器は通常、注意層と変調機構を介してテキスト情報を組み込む。
最近のアプローチでは、変調ベースのテキストコンディショニングを廃止し、注意のみに依存している。
本稿では,変調に基づくテキストコンディショニングの必要性と,パフォーマンス上の優位性について論じる。
- 参考スコア(独自算出の注目度): 28.353061239439587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion transformers typically incorporate textual information via attention layers and a modulation mechanism using a pooled text embedding. Nevertheless, recent approaches discard modulation-based text conditioning and rely exclusively on attention. In this paper, we address whether modulation-based text conditioning is necessary and whether it can provide any performance advantage. Our analysis shows that, in its conventional usage, the pooled embedding contributes little to overall performance, suggesting that attention alone is generally sufficient for faithfully propagating prompt information. However, we reveal that the pooled embedding can provide significant gains when used from a different perspective-serving as guidance and enabling controllable shifts toward more desirable properties. This approach is training-free, simple to implement, incurs negligible runtime overhead, and can be applied to various diffusion models, bringing improvements across diverse tasks, including text-to-image/video generation and image editing.
- Abstract(参考訳): 拡散変換器は通常、注意層を介したテキスト情報と、プールされたテキスト埋め込みを用いた変調機構を組み込む。
しかし、最近のアプローチでは、変調ベースのテキストコンディショニングを廃止し、注意のみに依存している。
本稿では,変調ベースのテキストコンディショニングが必要なのか,性能上の利点があるのかを論じる。
従来の手法では, プール埋め込みは全体の性能にはほとんど寄与せず, 注意だけでは情報伝達に十分であることが示唆された。
しかし, プール埋め込みは, 異なる視点からガイダンスとして利用することで, より望ましい特性への制御可能なシフトを可能にした。
このアプローチは、トレーニング不要で、実装が簡単で、無視可能なランタイムオーバーヘッドを発生させ、さまざまな拡散モデルに適用可能であり、テキスト・ツー・イメージ/ビデオ生成や画像編集など、さまざまなタスクに改善をもたらす。
関連論文リスト
- Shifting the Breaking Point of Flow Matching for Multi-Instance Editing [47.32746672482526]
本稿では,共同注意操作を分割し,インスタンス固有のテキスト命令と空間領域間の結合を強制する機構であるインスタンス・ディスタングル・アテンションを紹介する。
提案手法は,グローバルな出力コヒーレンスを保ちながら,編集のゆがみと局所性を促進し,単一パスのインスタンスレベルの編集を可能にする。
論文 参考訳(メタデータ) (2026-02-09T14:52:45Z) - Prompt Disentanglement via Language Guidance and Representation Alignment for Domain Generalization [75.88719716002014]
ドメイン一般化 (Domain Generalization, DG) は、目に見えないターゲットドメインに対して効果的に機能する汎用モデルの開発を目指している。
VFM(Pre-trained Visual Foundation Models)の最近の進歩は、ディープラーニングモデルの一般化能力を向上する大きな可能性を示している。
VFMの制御可能で柔軟な言語プロンプトを活用することで,この問題に対処することを提案する。
論文 参考訳(メタデータ) (2025-07-03T03:52:37Z) - Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。
本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。
我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文 参考訳(メタデータ) (2025-03-31T09:46:56Z) - Contrastive Learning Guided Latent Diffusion Model for Image-to-Image Translation [7.218556478126324]
拡散モデルはテキスト誘導画像翻訳のための多彩で高品質な画像において優れた性能を示した。
pix2pix-zeroConはゼロショット拡散に基づく手法で、パッチワイドのコントラスト損失を利用して追加のトレーニングを不要にする。
我々のアプローチでは、追加のトレーニングは必要とせず、事前訓練されたテキスト-画像拡散モデルで直接動作する。
論文 参考訳(メタデータ) (2025-03-26T12:15:25Z) - SALAD: Skeleton-aware Latent Diffusion for Text-driven Motion Generation and Editing [5.123822132804602]
関節, フレーム, 単語間の複雑な相互関係を捉えるスケルトン対応潜伏拡散(SALAD)モデルを提案する。
生成プロセス中に生成したクロスアテンションマップを利用することで、アテンションベースのゼロショットテキスト駆動モーション編集を可能にする。
提案手法は, 生成品質を損なうことなく, テキスト・モーションアライメントにおいて, 従来手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-03-18T02:20:11Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。