論文の概要: Diff-Aid: Inference-time Adaptive Interaction Denoising for Rectified Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2602.13585v1
- Date: Sat, 14 Feb 2026 04:08:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.22115
- Title: Diff-Aid: Inference-time Adaptive Interaction Denoising for Rectified Text-to-Image Generation
- Title(参考訳): Diff-Aid: 正規化テキスト・画像生成のための推論時適応的相互作用
- Authors: Binglei Li, Mengping Yang, Zhiyu Tan, Junping Zhang, Hao Li,
- Abstract要約: ディフエイド(Diff-Aid)は、トランスフォーマーブロック間のテキストと画像の相互作用を調整する軽量な推論時間法である。
プラグイン・アンド・プレイモジュールとして、Diff-Aidはダウンストリームアプリケーションにシームレスに統合され、さらなる改善が期待できる。
- 参考スコア(独自算出の注目度): 41.431041419460584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent text-to-image (T2I) diffusion models have achieved remarkable advancement, yet faithfully following complex textual descriptions remains challenging due to insufficient interactions between textual and visual features. Prior approaches enhance such interactions via architectural design or handcrafted textual condition weighting, but lack flexibility and overlook the dynamic interactions across different blocks and denoising stages. To provide a more flexible and efficient solution to this problem, we propose Diff-Aid, a lightweight inference-time method that adaptively adjusts per-token text and image interactions across transformer blocks and denoising timesteps. Beyond improving generation quality, Diff-Aid yields interpretable modulation patterns that reveal how different blocks, timesteps, and textual tokens contribute to semantic alignment during denoising. As a plug-and-play module, Diff-Aid can be seamlessly integrated into downstream applications for further improvement, including style LoRAs, controllable generation, and zero-shot editing. Experiments on strong baselines (SD 3.5 and FLUX) demonstrate consistent improvements in prompt adherence, visual quality, and human preference across various metrics. Our code and models will be released.
- Abstract(参考訳): 最近のテキスト・ツー・イメージ(T2I)拡散モデルは顕著な進歩を遂げているが、テキストと視覚的特徴の相互作用が不十分なため、複雑なテキスト記述を忠実に追従することは依然として困難である。
以前のアプローチでは、アーキテクチャ設計や手作りのテキスト条件重み付けによるインタラクションが強化されていたが、柔軟性が欠如し、異なるブロック間での動的インタラクションやデノゲーションステージを見落としていた。
この問題に対するよりフレキシブルで効率的な解決策として,トランスフォーマーブロック間のテキストと画像の相互作用を適応的に調整し,時間経過を通知する軽量な推論時間手法Diff-Aidを提案する。
生成品質の改善に加えて、Diff-Aidは解釈可能な変調パターンをもたらし、ブロック、タイムステップ、およびテキストトークンが、デノーミング中のセマンティックアライメントにどのように貢献するかを明らかにする。
プラグイン・アンド・プレイモジュールとして、Diff-Aidは、スタイルのLoRA、制御可能な生成、ゼロショット編集など、下流アプリケーションにシームレスに統合できる。
強いベースライン(SD 3.5とFLUX)の実験は、様々な指標において、迅速な順守、視覚的品質、人間の嗜好が一貫した改善を示している。
コードとモデルはリリースされます。
関連論文リスト
- Unraveling MMDiT Blocks: Training-free Analysis and Enhancement of Text-conditioned Diffusion [41.431041419460584]
テキスト条件と異なるブロックとそれらの相互作用が合成過程にどのように寄与するかを考察する。
分析の結果,先行ブロックに意味情報が出現し,後続ブロックに細部の詳細が描画されることが判明した。
テキストアライメントの改善, 正確な編集, アクセラレーションのための新しいトレーニングフリー戦略を提案する。
論文 参考訳(メタデータ) (2026-01-05T15:32:53Z) - GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval [12.483734449829235]
GAIDは、テキストガイダンスの下でオーディオと視覚機能を統合するフレームワークである。
DASPは、構造を意識した摂動をテキスト埋め込みに注入し、マルチパス推論を発生させることなく、堅牢性と差別性を高める。
MSR-VTT, DiDeMo, LSMDC, VATEXによる実験では, 顕著な効率向上が得られた。
論文 参考訳(メタデータ) (2025-08-03T10:44:24Z) - Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers [79.94246924019984]
マルチモーダル拡散変換器 (MM-DiT) はテキスト駆動型視覚生成において顕著な進歩を遂げている。
マルチモーダルインタラクションを動的に再バランスするパラメータ効率向上手法である textbfTemperature-Adjusted Cross-modal Attention (TACA) を提案する。
本研究は,テキスト・画像拡散モデルにおける意味的忠実度向上における相互注意のバランスの重要性を強調した。
論文 参考訳(メタデータ) (2025-06-09T17:54:04Z) - SALAD: Skeleton-aware Latent Diffusion for Text-driven Motion Generation and Editing [5.123822132804602]
関節, フレーム, 単語間の複雑な相互関係を捉えるスケルトン対応潜伏拡散(SALAD)モデルを提案する。
生成プロセス中に生成したクロスアテンションマップを利用することで、アテンションベースのゼロショットテキスト駆動モーション編集を可能にする。
提案手法は, 生成品質を損なうことなく, テキスト・モーションアライメントにおいて, 従来手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-03-18T02:20:11Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。