論文の概要: Eye-for-an-eye: Appearance Transfer with Semantic Correspondence in Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.07008v1
- Date: Tue, 11 Jun 2024 07:08:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 17:04:10.001487
- Title: Eye-for-an-eye: Appearance Transfer with Semantic Correspondence in Diffusion Models
- Title(参考訳): 眼の目:拡散モデルにおける意味的対応による出現伝達
- Authors: Sooyeon Go, Kyungmook Choi, Minjung Shin, Youngjung Uh,
- Abstract要約: 対象画像と同じ構造を持つが、参照画像から色を塗った結果を生成する方法を提案する。
既存のメソッドは、自己アテンション層内のクエリキーの類似性に依存し、通常は欠陥のある結果を生成する。
- 参考スコア(独自算出の注目度): 8.65146533481257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As pretrained text-to-image diffusion models have become a useful tool for image synthesis, people want to specify the results in various ways. In this paper, we introduce a method to produce results with the same structure of a target image but painted with colors from a reference image, i.e., appearance transfer, especially following the semantic correspondence between the result and the reference. E.g., the result wing takes color from the reference wing, not the reference head. Existing methods rely on the query-key similarity within self-attention layer, usually producing defective results. To this end, we propose to find semantic correspondences and explicitly rearrange the features according to the semantic correspondences. Extensive experiments show the superiority of our method in various aspects: preserving the structure of the target and reflecting the color from the reference according to the semantic correspondences, even when the two images are not aligned.
- Abstract(参考訳): 事前訓練されたテキスト・画像拡散モデルが画像合成の有用なツールとなったため、様々な方法で結果の特定が望まれる。
本稿では,対象画像の同じ構造を持つ結果を生成する手法を提案する。
例えば、結果翼は基準主翼から色を取り、基準主翼ではない。
既存のメソッドは、自己アテンション層内のクエリキーの類似性に依存し、通常は欠陥のある結果を生成する。
そこで本研究では,意味的対応を見つけ,意味的対応に従って特徴を明示的に並べ替えることを提案する。
対象の構造を保存し、2つの画像が整列していない場合でも、意味的対応に従って参照から色を反映するなど、様々な面で本手法の優位性を示す。
関連論文リスト
- DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。
DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文 参考訳(メタデータ) (2024-03-11T17:35:23Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - SPColor: Semantic Prior Guided Exemplar-based Image Colorization [14.191819767895867]
本研究では,SPColorを提案する。
SPColorはまず、参照画像とターゲット画像のピクセルをセマンティック先行のガイダンスの下で複数の擬似クラスに分類する。
我々のモデルは、最近の最先端の手法を定量的にも質的にも、公開データセット上でも優れています。
論文 参考訳(メタデータ) (2023-04-13T04:21:45Z) - Describing Sets of Images with Textual-PCA [89.46499914148993]
画像の集合を意味的に記述し、単一の画像の属性とセット内のバリエーションの両方をキャプチャする。
我々の手順は原理成分分析と類似しており、射影ベクトルの役割を生成されたフレーズに置き換える。
論文 参考訳(メタデータ) (2022-10-21T17:10:49Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - Cross-domain Correspondence Learning for Exemplar-based Image
Translation [59.35767271091425]
本稿では,異なる領域の入力からフォトリアリスティックな画像を合成する,例題に基づく画像翻訳のためのフレームワークを提案する。
出力は、例において意味的に対応するオブジェクトと整合したスタイル(例えば、色、テクスチャ)を持つ。
本手法は画像品質の面で最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-04-12T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。