論文の概要: Cross-Image Attention for Zero-Shot Appearance Transfer
- arxiv url: http://arxiv.org/abs/2311.03335v1
- Date: Mon, 6 Nov 2023 18:33:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 13:08:28.253731
- Title: Cross-Image Attention for Zero-Shot Appearance Transfer
- Title(参考訳): ゼロショット画像転送のためのクロスイメージアテンション
- Authors: Yuval Alaluf, Daniel Garibi, Or Patashnik, Hadar Averbuch-Elor, Daniel
Cohen-Or
- Abstract要約: 画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
- 参考スコア(独自算出の注目度): 68.43651329067393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in text-to-image generative models have demonstrated a
remarkable ability to capture a deep semantic understanding of images. In this
work, we leverage this semantic knowledge to transfer the visual appearance
between objects that share similar semantics but may differ significantly in
shape. To achieve this, we build upon the self-attention layers of these
generative models and introduce a cross-image attention mechanism that
implicitly establishes semantic correspondences across images. Specifically,
given a pair of images -- one depicting the target structure and the other
specifying the desired appearance -- our cross-image attention combines the
queries corresponding to the structure image with the keys and values of the
appearance image. This operation, when applied during the denoising process,
leverages the established semantic correspondences to generate an image
combining the desired structure and appearance. In addition, to improve the
output image quality, we harness three mechanisms that either manipulate the
noisy latent codes or the model's internal representations throughout the
denoising process. Importantly, our approach is zero-shot, requiring no
optimization or training. Experiments show that our method is effective across
a wide range of object categories and is robust to variations in shape, size,
and viewpoint between the two input images.
- Abstract(参考訳): テキストから画像への生成モデルの最近の進歩は、画像の深い意味的理解をとらえる顕著な能力を示している。
本研究では,この意味的知識を生かして,類似した意味を持つが形状が著しく異なる物体間の視覚的な外観を伝達する。
これを実現するために、これらの生成モデルの自己注意層を構築し、画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
具体的には、一対のイメージ -- 対象の構造と所望の外観を指定するイメージ -- が与えられると、クロスイメージの注意力は、構造イメージに対応するクエリと、外観イメージのキーと値とを結合します。
この操作は、ノイズ処理中に適用されると、確立された意味対応を利用して、所望の構造と外観を組み合わせた画像を生成する。
さらに,出力画像の画質を向上させるために,ノイズの多い潜在コードを操作するか,モデルの内部表現を操作する機構を3つ活用した。
重要なことは、私たちのアプローチはゼロショットであり、最適化やトレーニングは必要ありません。
実験により,提案手法は幅広い対象カテゴリにまたがって有効であり,入力画像間の形状,サイズ,視点の変化に頑健であることが判明した。
関連論文リスト
- Disentangling Structure and Appearance in ViT Feature Space [26.233355454282446]
本稿では,ある自然画像の視覚的外観を別の自然画像に意味的に伝達する手法を提案する。
具体的には、ソース構造画像中のオブジェクトを、ターゲットの外観画像中のそれらの意味的関連オブジェクトの視覚的外観で“ペイント”する画像を生成する。
本研究では,特定の領域から画像のデータセットに基づいて学習したフィードフォワードリアルタイムな外見伝達モデルであるSpliceNetと,一対の構造化画像に対してジェネレータをトレーニングすることで機能するセマンティックな外見伝達の2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-20T21:20:15Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Masked Image Modeling with Denoising Contrast [30.31920660487222]
マスク付き画像モデリングは、視覚変換器の最先端性能でこの研究のラインを独占している。
画像内画像間のコントラスト制約を生成するための,新しい事前学習手法であるConMIMを導入する。
ConMIM-pretrained vision Transformer with various scales achieve promising results on downstream image classification, semantic segmentation, object detection, and instance segmentation task。
論文 参考訳(メタデータ) (2022-05-19T15:22:29Z) - Splicing ViT Features for Semantic Appearance Transfer [10.295754142142686]
本稿では,ある自然画像の視覚的外観を別の自然画像に意味的に伝達する手法を提案する。
具体的には、ソース構造画像中のオブジェクトを、ターゲットの外観画像中のそれらの意味的関連オブジェクトの視覚的外観で“ペイント”する画像を生成する。
論文 参考訳(メタデータ) (2022-01-02T22:00:34Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - Co-Attention for Conditioned Image Matching [91.43244337264454]
照明, 視点, コンテキスト, 素材に大きな変化がある場合, 野生のイメージペア間の対応性を決定するための新しい手法を提案する。
他のアプローチでは、イメージを個別に扱うことで、画像間の対応を見出すが、その代わりに、画像間の差異を暗黙的に考慮するよう、両画像に条件を付ける。
論文 参考訳(メタデータ) (2020-07-16T17:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。