論文の概要: Adaptive Auxiliary Prompt Blending for Target-Faithful Diffusion Generation
- arxiv url: http://arxiv.org/abs/2603.19158v1
- Date: Thu, 19 Mar 2026 17:12:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.291567
- Title: Adaptive Auxiliary Prompt Blending for Target-Faithful Diffusion Generation
- Title(参考訳): ターゲット型拡散生成のための適応補助プロンプトブレンド
- Authors: Kwanyoung Lee, SeungJu Cha, Yebin Ahn, Hyunwoo Oh, Sungho Koh, Dong-Jin Kim,
- Abstract要約: 低密度領域における拡散過程を安定化させるために, 適応補助プロンプトブレンディング (AAPB) を導入する。
AAPBは、まれな概念生成におけるセマンティックサポートと、画像編集における構造的サポートを提供する。
RareBenchとFlowEditのデータセットに一貫した改善を実証的に示す。
- 参考スコア(独自算出の注目度): 6.826122099204317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based text-to-image (T2I) models have made remarkable progress in generating photorealistic and semantically rich images. However, when the target concepts lie in low-density regions of the training distribution, these models often produce semantically misaligned or structurally inconsistent results. This limitation arises from the long-tailed nature of text-image datasets, where rare concepts or editing instructions are underrepresented. To address this, we introduce Adaptive Auxiliary Prompt Blending (AAPB) - a unified framework that stabilizes the diffusion process in low-density regions. AAPB leverages auxiliary anchor prompts to provide semantic support in rare concept generation and structural support in image editing, ensuring faithful guidance toward the target prompt. Unlike prior heuristic prompt alternation methods, AAPB derives a closed-form adaptive coefficient that optimally balances the influence between the auxiliary anchor and the target prompt at each diffusion step. Grounded in Tweedie's identity, our formulation provides a principled and training-free framework for adaptive prompt blending, ensuring stable and target-faithful generation. We demonstrate the effectiveness of adaptive interpolation over fixed interpolation through controlled experiments and empirically show consistent improvements on the RareBench and FlowEdit datasets, achieving superior semantic accuracy and structural fidelity compared to prior training-free baselines.
- Abstract(参考訳): 拡散に基づくテキスト・トゥ・イメージ(T2I)モデルは、フォトリアリスティックでセマンティックにリッチな画像の生成において顕著な進歩を遂げている。
しかし、目標概念がトレーニング分布の低密度領域にある場合、これらのモデルは意味的に不一致あるいは構造的に矛盾する結果をもたらすことが多い。
この制限は、まれな概念や編集命令が不足しているテキストイメージデータセットの長い尾を持つ性質から生じる。
そこで我々は,低密度領域における拡散過程を安定化させる統一フレームワークであるAdaptive Auxiliary Prompt Blending (AAPB)を導入する。
AAPBは補助アンカープロンプトを利用して、まれな概念生成におけるセマンティックサポートと、画像編集における構造的サポートを提供し、ターゲットプロンプトに対する忠実なガイダンスを保証する。
事前のヒューリスティックなプロンプト変更法とは異なり、AAPBは各拡散ステップにおける補助アンカーとターゲットプロンプトの間の影響を最適にバランスする閉形式適応係数を導出する。
ツイーディのアイデンティティを基盤として、我々の定式化は、適応的な迅速なブレンディング、安定かつ目標忠実な生成を保証するための原則的でトレーニングなしのフレームワークを提供する。
制御実験による固定補間に対する適応補間の有効性を実証し,RareBenchおよびFlowEditデータセットにおける一貫した改善を実証的に示す。
関連論文リスト
- Training-Free Representation Guidance for Diffusion Models with a Representation Alignment Projector [14.027059904924135]
本稿では,プロジェクタによって予測される表現を中間サンプリングステップに注入するアライメントアライメントプロジェクタを提案する。
SiTとREPAの実験は、クラス条件の画像ネット合成において顕著に改善されている。
提案手法は,SiTモデルに適用した場合の代表的なガイダンスより優れる。
論文 参考訳(メタデータ) (2026-01-30T02:29:54Z) - Fast, faithful and photorealistic diffusion-based image super-resolution with enhanced Flow Map models [8.773008452897791]
FlowMapSRは、効率的な推論のために明示的に設計された画像超解像のための新しい拡散ベースのフレームワークである。
FlowMapSRは、最近のx4およびx8アップスケーリングの最先端手法よりも、再構築忠実度とフォトリアリズムのバランスが良いことを示す。
論文 参考訳(メタデータ) (2026-01-23T11:25:04Z) - Edit2Perceive: Image Editing Diffusion Models Are Strong Dense Perceivers [55.15722080205737]
Edit2Perceiveは、深度、正規度、マッティングの編集モデルを適応させる統合拡散フレームワークである。
私たちの単一ステップの決定論的推論は、比較的小さなデータセットでトレーニングしながら、より高速なランタイムをもたらす。
論文 参考訳(メタデータ) (2025-11-24T01:13:51Z) - Enhancing CLIP Robustness via Cross-Modality Alignment [54.01929554563447]
視覚言語モデルのための最適なトランスポートベースフレームワークであるクロスモダリティアライメントを提案する。
COLAは、グローバルな画像テキストアライメントと特徴空間における局所的な構造的一貫性を復元する。
COLAはトレーニングフリーで、既存の微調整モデルと互換性がある。
論文 参考訳(メタデータ) (2025-10-28T03:47:44Z) - Dynamic Classifier-Free Diffusion Guidance via Online Feedback [53.54876309092376]
ワンサイズオール"アプローチは、異なるプロンプトの多様な要件に適応できない。
動的CFGスケジューリングのためのフレームワークを提案する。
我々は,小型モデルと最先端のImagen 3におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2025-09-19T16:27:19Z) - Steering Guidance for Personalized Text-to-Image Diffusion Models [19.550718192994353]
既存のサンプリングガイダンス手法では、出力をバランスの取れた空間へ誘導することができない。
我々は、ヌルテキストプロンプトに条件付き未学習弱モデルを活用する、単純で効果的なパーソナライズガイダンスを提案する。
本手法は,余分な計算オーバーヘッドを伴わずに,バランスの取れた潜在空間への出力を明示的に制御する。
論文 参考訳(メタデータ) (2025-08-01T05:02:26Z) - FreeBlend: Advancing Concept Blending with Staged Feedback-Driven Interpolation Diffusion [9.51081615960585]
概念ブレンディングは、生成モデルにおいて、有望だが未発見の領域である。
FreeBlendは、これらの課題に対処するために設計された、効果的な、トレーニング不要のフレームワークです。
論文 参考訳(メタデータ) (2025-02-08T15:25:03Z) - Diffusion-Based Conditional Image Editing through Optimized Inference with Guidance [46.922018440110826]
本稿では,事前学習されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像翻訳のためのトレーニング不要なアプローチを提案する。
本手法は,事前学習した安定拡散モデルと組み合わせることで,様々なタスクにおける画像と画像の翻訳性能を向上する。
論文 参考訳(メタデータ) (2024-12-20T11:15:31Z) - TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。