論文の概要: Injecting Image Guidance into Text-Conditioned Diffusion Models at Inference
- arxiv url: http://arxiv.org/abs/2605.25191v1
- Date: Sun, 24 May 2026 17:47:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.955983
- Title: Injecting Image Guidance into Text-Conditioned Diffusion Models at Inference
- Title(参考訳): テキスト記述拡散モデルへの画像誘導
- Authors: Agata Żywot, Iason Skylitsis, Thijmen Nijdam, Zoe Tzifa-Kratira, Derck Prinzhorn, Konrad Szewczyk, Aritra Bhowmik,
- Abstract要約: テキスト・ツー・イメージ拡散モデルはテキストから高品質な画像を生成するが、再トレーニングせずに推論時に視覚的誘導を注入する方法がない。
本稿では,視覚概念融合(VCF)について紹介する。これは,画像とテキストのプロンプトを,概念固有のトレーニングを伴わずに,推論時に2つの条件付けを行う最初の方法である。
VCFは、参照画像からスタイル、コンポジション、カラーパレットを含む視覚的属性の転送に成功し、即時付着を維持した。
- 参考スコア(独自算出の注目度): 1.7394635819080972
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-image diffusion models like Stable Diffusion generate high-quality images from text, but lack a way to inject visual guidance (e.g. sketches, styles) at inference without retraining. Existing methods either require computationally expensive fine-tuning or rely on style transfer techniques that risk semantic misalignment with textual prompts. We introduce Visual Concept Fusion (VCF), the first method offering dual conditioning on both an image and text prompt at inference time without any concept-specific training. VCF enables visual concept injection into Stable Diffusion by aligning CLIP image features with the text embedding space. VCF consists of three components: (1) a lightweight aligner that maps image tokens to the text embedding manifold using InfoNCE and cross-attention reconstruction losses, (2) a fusion strategy that preserves both textual and visual semantics, and (3) an optional Prompt-Noise Optimization (PNO) module for test-time refinement. Our experiments demonstrate that VCF successfully transfers visual attributes including style, composition, and color palette from reference images while maintaining prompt adherence. Quantitative results show a trade-off between text alignment (CLIP score) and visual correspondence (LPIPS), with VCF outperforming baselines in reference fidelity.
- Abstract(参考訳): 安定拡散(Stable Diffusion)のようなテキスト間の拡散モデルは、テキストから高品質な画像を生成するが、推論時に視覚誘導(スケッチ、スタイルなど)を再トレーニングすることなく注入する方法がない。
既存の手法では、計算に高価な微調整を必要とするか、あるいはテキストプロンプトによる意味的ミスアライメントを危険にさらすスタイル転送技術に依存している。
本稿では,視覚概念融合(VCF)について紹介する。これは,画像とテキストのプロンプトを,概念固有のトレーニングを伴わずに,推論時に2つの条件付けを行う最初の方法である。
VCFは、CLIPイメージ機能をテキスト埋め込みスペースと整合させることで、静的拡散に視覚的な概念注入を可能にする。
VCF は,(1) InfoNCE と クロスアテンション再構築損失を用いて画像トークンをテキスト埋め込み多様体にマッピングする軽量整列器,(2) テキストと視覚のセマンティクスの両方を保存する融合戦略,(3) テスト時間改善のためのオプションの Prompt-Noise Optimization (PNO) モジュールからなる。
提案実験により,VCFは画像からのスタイル,構成,カラーパレットなどの視覚特性の伝達に成功し,即時定着を維持した。
定量的な結果から,テキストアライメント(CLIPスコア)と視覚対応(LPIPS)のトレードオフが示され,VCFは基準忠実度においてベースラインよりも優れていた。
関連論文リスト
- Prompt Reinjection: Alleviating Prompt Forgetting in Multimodal Diffusion Transformers [64.4017917917109]
テキスト・画像生成のためのマルチモーダル拡散変換器(MMDiT)は、テキストと画像の分岐を別々に維持する。
テキスト分岐におけるプロンプト表現のセマンティクスは、深さが増加するにつれて徐々に忘れられていく。
これらの知見に触発されて、我々は、早期層から後層へのプロンプト表現をリジェクションする、トレーニング不要なアプローチを導入し、このことを忘れないようにした。
論文 参考訳(メタデータ) (2026-02-06T17:19:53Z) - Text to Image for Multi-Label Image Recognition with Joint Prompt-Adapter Learning [69.33115351856785]
本稿では,PEFTのテキストキャプションのみを使用する場合のモダリティギャップ問題に対処するため,T2I-PALと呼ばれる新しい手法を提案する。
T2I-PALの中核となる設計は、事前訓練されたテキスト-画像生成モデルを利用して、テキストキャプションからフォトリアリスティックで多様な画像を生成することである。
MS-COCO、VOC2007、NAS-WIDEを含む複数のベンチマークに対する大規模な実験は、我々のT2I-PALが認識性能を平均3.47%向上させることができることを示している。
論文 参考訳(メタデータ) (2025-06-12T11:09:49Z) - PTDiffusion: Free Lunch for Generating Optical Illusion Hidden Pictures with Phase-Transferred Diffusion Model [23.479182559911813]
光錯視隠れ画像は、画像が他の画像に巧妙に統合される興味深い視覚現象であり、視聴者にとってすぐには明らかではない。
隠れアート合成のための新しいトレーニングフリーなテキスト誘導画像変換フレームワークである textbfPhase-textbfTransferred textbfDiffusion Model (PTDiffusion) を提案する。
論文 参考訳(メタデータ) (2025-03-08T12:06:21Z) - Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。