論文の概要: Single-Reference Text-to-Image Manipulation with Dual Contrastive Denoising Score
- arxiv url: http://arxiv.org/abs/2508.12718v1
- Date: Mon, 18 Aug 2025 08:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.084629
- Title: Single-Reference Text-to-Image Manipulation with Dual Contrastive Denoising Score
- Title(参考訳): Dual Contrastive Denoising Scoreを用いた単一参照テキスト・画像マニピュレーション
- Authors: Syed Muhmmad Israr, Feng Zhao,
- Abstract要約: 大規模テキスト・画像生成モデルは、多彩で高品質な画像を合成する顕著な能力を示している。
本稿では,テキスト・ツー・イメージ拡散モデルのリッチな生成モデルを活用するフレームワークであるDual Contrastive Denoising Scoreを提案する。
本手法は,入力画像と出力画像間のフレキシブルなコンテンツ修正と構造保存,およびゼロショット画像から画像への変換を実現する。
- 参考スコア(独自算出の注目度): 4.8677910801584385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale text-to-image generative models have shown remarkable ability to synthesize diverse and high-quality images. However, it is still challenging to directly apply these models for editing real images for two reasons. First, it is difficult for users to come up with a perfect text prompt that accurately describes every visual detail in the input image. Second, while existing models can introduce desirable changes in certain regions, they often dramatically alter the input content and introduce unexpected changes in unwanted regions. To address these challenges, we present Dual Contrastive Denoising Score, a simple yet powerful framework that leverages the rich generative prior of text-to-image diffusion models. Inspired by contrastive learning approaches for unpaired image-to-image translation, we introduce a straightforward dual contrastive loss within the proposed framework. Our approach utilizes the extensive spatial information from the intermediate representations of the self-attention layers in latent diffusion models without depending on auxiliary networks. Our method achieves both flexible content modification and structure preservation between input and output images, as well as zero-shot image-to-image translation. Through extensive experiments, we show that our approach outperforms existing methods in real image editing while maintaining the capability to directly utilize pretrained text-to-image diffusion models without further training.
- Abstract(参考訳): 大規模テキスト・画像生成モデルは、多彩で高品質な画像を合成する顕著な能力を示している。
しかし、2つの理由から実際の画像の編集にこれらのモデルを直接適用することは依然として困難である。
まず,入力画像のすべての視覚的詳細を正確に記述する完全テキストプロンプトをユーザが作成することは困難である。
第二に、既存のモデルは特定の領域に望ましい変化をもたらすが、入力内容が劇的に変化し、望ましくない領域に予期しない変化をもたらすことが多い。
これらの課題に対処するために、テキスト・ツー・イメージ拡散モデルのリッチ・ジェネレーティブ・モデルを活用するシンプルで強力なフレームワークであるDual Contrastive Denoising Scoreを提案する。
画像間翻訳の非対向的な学習手法に着想を得て,提案フレームワーク内での直接的二重対向的損失を導入する。
提案手法は,補助的ネットワークに依存しない潜在拡散モデルにおいて,自己認識層の中間表現から広い空間情報を利用する。
本手法は,入力画像と出力画像間のフレキシブルなコンテンツ修正と構造保存,およびゼロショット画像から画像への変換を実現する。
広範にわたる実験により,本手法は,事前学習したテキスト・画像拡散モデルを直接活用する能力を維持しつつ,実際の画像編集における既存の手法よりも優れていることを示す。
関連論文リスト
- EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models [31.31018600797305]
本稿では,テキストから画像への拡散モデルに対するsysと呼ばれるプロンプトインバージョン手法を提案する。
本手法は,画像の類似性,テキストのアライメント,解釈可能性,一般化可能性の観点から,既存の手法よりも優れる。
論文 参考訳(メタデータ) (2025-06-03T16:44:15Z) - Contrastive Learning Guided Latent Diffusion Model for Image-to-Image Translation [7.218556478126324]
拡散モデルはテキスト誘導画像翻訳のための多彩で高品質な画像において優れた性能を示した。
pix2pix-zeroConはゼロショット拡散に基づく手法で、パッチワイドのコントラスト損失を利用して追加のトレーニングを不要にする。
我々のアプローチでは、追加のトレーニングは必要とせず、事前訓練されたテキスト-画像拡散モデルで直接動作する。
論文 参考訳(メタデータ) (2025-03-26T12:15:25Z) - DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation [0.13124513975412253]
本稿では,大規模言語モデルと制御条件拡散モデルを活用した視覚ニューラルネットワークのテストフレームワークを提案する。
私たちのアプローチは、キャプションモデルを用いて画像から詳細なテキスト記述に変換することから始まります。
これらの記述は、テキストから画像への拡散プロセスを通じて、新しいテスト画像を生成するために使用される。
論文 参考訳(メタデータ) (2025-02-05T16:35:42Z) - DreamDistribution: Learning Prompt Distribution for Diverse In-distribution Generation [51.24734569887687]
本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。
これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。
また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
論文 参考訳(メタデータ) (2023-12-21T12:11:00Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。