論文の概要: Conditional Score Guidance for Text-Driven Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2305.18007v3
- Date: Sat, 18 Nov 2023 07:29:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 19:23:16.444698
- Title: Conditional Score Guidance for Text-Driven Image-to-Image Translation
- Title(参考訳): テキスト駆動画像変換のための条件スコアガイダンス
- Authors: Hyunsoo Lee, Minsoo Kang, Bohyung Han
- Abstract要約: 本稿では,事前訓練されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像変換のための新しいアルゴリズムを提案する。
本手法は,ソース画像の関心領域を選択的に編集することで,対象画像を生成することを目的とする。
- 参考スコア(独自算出の注目度): 52.73564644268749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel algorithm for text-driven image-to-image translation based
on a pretrained text-to-image diffusion model. Our method aims to generate a
target image by selectively editing the regions of interest in a source image,
defined by a modifying text, while preserving the remaining parts. In contrast
to existing techniques that solely rely on a target prompt, we introduce a new
score function that additionally considers both the source image and the source
text prompt, tailored to address specific translation tasks. To this end, we
derive the conditional score function in a principled manner, decomposing it
into the standard score and a guiding term for target image generation. For the
gradient computation of the guiding term, we assume a Gaussian distribution of
the posterior distribution and estimate its mean and variance to adjust the
gradient without additional training. In addition, to improve the quality of
the conditional score guidance, we incorporate a simple yet effective mixup
technique, which combines two cross-attention maps derived from the source and
target latents. This strategy is effective for promoting a desirable fusion of
the invariant parts in the source image and the edited regions aligned with the
target prompt, leading to high-fidelity target image generation. Through
comprehensive experiments, we demonstrate that our approach achieves
outstanding image-to-image translation performance on various tasks.
- Abstract(参考訳): 本稿では,事前訓練されたテキスト・画像拡散モデルに基づくテキスト駆動画像変換のための新しいアルゴリズムを提案する。
本手法は,修正テキストで定義されたソース画像の関心領域を選択的に編集し,残りの部分を保存し,対象画像を生成することを目的とする。
目標プロンプトのみに依存する既存の手法とは対照的に、特定の翻訳タスクに対応するために調整されたソース画像とソーステキストプロンプトの両方を考慮に入れる新しいスコア関数を導入する。
この目的のために、条件スコア関数を基準スコアと目標画像生成のためのガイド語に分解し、原則的に導出する。
指導項の勾配計算には,後方分布のガウス分布を仮定し,その平均と分散を推定し,追加の訓練をすることなく勾配を調整できる。
さらに,条件付きスコアガイダンスの品質向上のために,ソースとターゲットの潜伏者から得られた2つのクロスアテンションマップを組み合わせた,シンプルで効果的なミックスアップ手法を取り入れた。
この戦略は、ソース画像における不変部分とターゲットプロンプトに整列した編集領域との望ましい融合を促進するのに有効であり、高忠実なターゲット画像を生成する。
総合的な実験により,様々なタスクにおいて優れた画像から画像への翻訳性能を実現することを実証した。
関連論文リスト
- ImPoster: Text and Frequency Guidance for Subject Driven Action Personalization using Diffusion Models [55.43801602995778]
提案するImPosterは,「運転」動作を行う「ソース」対象のターゲット画像を生成する新しいアルゴリズムである。
私たちのアプローチは完全に教師なしで、キーポイントやポーズといった追加のアノテーションへのアクセスは不要です。
論文 参考訳(メタデータ) (2024-09-24T01:25:19Z) - Diffusion based Zero-shot Medical Image-to-Image Translation for Cross Modality Segmentation [18.895926089773177]
クロスモダリティ画像セグメンテーションは、ソースモダリティで設計された手法を用いて、ターゲットモダリティをセグメンテーションすることを目的としている。
深層生成モデルは、対象のモダリティ画像をソースモダリティに変換することで、モダリティのセグメンテーションを可能にする。
論文 参考訳(メタデータ) (2024-04-01T13:23:04Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - Masked and Adaptive Transformer for Exemplar Based Image Translation [16.93344592811513]
ドメイン間のセマンティックマッチングは難しい。
正確なクロスドメイン対応を学習するためのマスク付き適応変換器(MAT)を提案する。
品質識別型スタイル表現を得るための新しいコントラスト型スタイル学習法を考案する。
論文 参考訳(メタデータ) (2023-03-30T03:21:14Z) - Diffusion-based Image Translation using Disentangled Style and Content
Representation [51.188396199083336]
セマンティックテキストや単一のターゲット画像でガイドされた拡散ベースの画像変換により、柔軟なスタイル変換が可能になった。
逆拡散中、画像の原内容を維持することはしばしば困難である。
本稿では,不整合スタイルとコンテンツ表現を用いた新しい拡散に基づく教師なし画像翻訳手法を提案する。
提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T06:44:37Z) - Blended Diffusion for Text-driven Editing of Natural Images [18.664733153082146]
本稿では,局所的な(地域をベースとした)編集を自然言語で行うための最初のソリューションを提案する。
我々は、事前訓練された言語画像モデル(CLIP)を活用し、組み合わせることで、目標を達成する。
画像の異なる部分で編集された領域をシームレスに融合させるため、入力画像のノイズバージョンと局所テキスト誘導拡散潜時を空間的にブレンドする。
論文 参考訳(メタデータ) (2021-11-29T18:58:49Z) - Global and Local Alignment Networks for Unpaired Image-to-Image
Translation [170.08142745705575]
未ペア画像から画像への変換の目的は、対象領域のスタイルを反映した出力画像を作成することである。
既存の手法では内容変化に注意が払われていないため、ソース画像からの意味情報は翻訳中の劣化に悩まされる。
我々はGLA-Net(Global and Local Alignment Networks)という新しいアプローチを導入する。
本手法は既存の手法よりもシャープでリアルな画像を効果的に生成する。
論文 参考訳(メタデータ) (2021-11-19T18:01:54Z) - Style Intervention: How to Achieve Spatial Disentanglement with
Style-based Generators? [100.60938767993088]
任意の入力画像に適応し、フレキシブルな目的の下で自然な翻訳効果をレンダリングできる軽量な最適化アルゴリズムを提案する。
フォトリアリズムと一貫性の両方を必要とする高解像度画像の顔属性編集において,提案するフレームワークの性能を検証する。
論文 参考訳(メタデータ) (2020-11-19T07:37:31Z) - GAIT: Gradient Adjusted Unsupervised Image-to-Image Translation [5.076419064097734]
対向損失を利用して、翻訳された画像セットと対象画像セットの分布を一致させる。
これにより、2つの領域が例えば一様領域において異なる辺分布を持つようなアーティファクトが生成される。
本稿では,翻訳後の一様領域を保存する教師なしIITを提案する。
論文 参考訳(メタデータ) (2020-09-02T08:04:00Z) - Label-Driven Reconstruction for Domain Adaptation in Semantic
Segmentation [43.09068177612067]
教師なしのドメイン適応は、セマンティックセグメンテーションにおけるピクセルワイズアノテーションの必要性を軽減することができる。
最も一般的な戦略の1つは、ソースドメインからターゲットドメインに画像を変換し、敵対学習を用いて特徴空間内の限界分布を調整することである。
本稿では、画像翻訳バイアスを緩和し、ドメイン間機能を同じカテゴリに整合させる革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-10T10:06:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。