論文の概要: Appearance Matching Adapter for Exemplar-based Semantic Image Synthesis in-the-Wild
- arxiv url: http://arxiv.org/abs/2412.03150v2
- Date: Tue, 18 Mar 2025 07:31:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:12:14.374294
- Title: Appearance Matching Adapter for Exemplar-based Semantic Image Synthesis in-the-Wild
- Title(参考訳): 先進的セマンティック画像合成のための出現整合適応器
- Authors: Siyoon Jin, Jisu Nam, Jiyoung Kim, Dahyun Chung, Yeong-Seok Kim, Joonhyung Park, Heonjeong Chu, Seungryong Kim,
- Abstract要約: 例題ベースセマンティック画像合成は、例題の外観を保ちながら意味内容と整合した画像を生成する。
最近のチューニングフリーアプローチでは、暗黙のクロスイメージマッチングを通じて局所的な外観を転送することでこの問題に対処している。
そこで本稿では,AM-Adapterを用いて,先進的なセマンティック画像合成手法を提案する。
- 参考スコア(独自算出の注目度): 29.23745176017559
- License:
- Abstract: Exemplar-based semantic image synthesis generates images aligned with semantic content while preserving the appearance of an exemplar. Conventional structure-guidance models like ControlNet, are limited as they rely solely on text prompts to control appearance and cannot utilize exemplar images as input. Recent tuning-free approaches address this by transferring local appearance via implicit cross-image matching in the augmented self-attention mechanism of pre-trained diffusion models. However, prior works are often restricted to single-object cases or foreground object appearance transfer, struggling with complex scenes involving multiple objects. To overcome this, we propose AM-Adapter (Appearance Matching Adapter) to address exemplar-based semantic image synthesis in-the-wild, enabling multi-object appearance transfer from a single scene-level image. AM-Adapter automatically transfers local appearances from the scene-level input. AM-Adapter alternatively provides controllability to map user-defined object details to specific locations in the synthesized images. Our learnable framework enhances cross-image matching within augmented self-attention by integrating semantic information from segmentation maps. To disentangle generation and matching, we adopt stage-wise training. We first train the structure-guidance and generation networks, followed by training the matching adapter while keeping the others frozen. During inference, we introduce an automated exemplar retrieval method for selecting exemplar image-segmentation pairs efficiently. Despite utilizing minimal learnable parameters, AM-Adapter achieves state-of-the-art performance, excelling in both semantic alignment and local appearance fidelity. Extensive ablations validate our design choices. Code and weights will be released.: https://cvlab-kaist.github.io/AM-Adapter/
- Abstract(参考訳): 例題ベースセマンティック画像合成は、例題の外観を保ちながら意味内容と整合した画像を生成する。
ControlNetのような従来の構造誘導モデルは、外観を制御するためのテキストプロンプトのみに依存しており、入力として典型的なイメージを利用できないため、制限されている。
最近のチューニングフリーアプローチでは、事前学習拡散モデルの自己アテンション強化機構において、暗黙のクロスイメージマッチングを介して局所的な外観を伝達することでこの問題に対処している。
しかしながら、先行の作品は、複数のオブジェクトを含む複雑なシーンに苦しむ、単一のオブジェクトケースや前景のオブジェクトの外観転送に制限されることが多い。
そこで本研究では,一シーンレベルの画像から複数オブジェクトの外観を移譲できるAM-Adapter (Appearance Matching Adapter)を提案する。
AM-Adapterは、シーンレベルの入力からローカルな外観を自動的に転送する。
代わりにAM-Adapterは、ユーザーが定義したオブジェクトの詳細を合成画像内の特定の場所にマッピングする制御性を提供する。
学習可能なフレームワークは,セグメンテーションマップからのセグメンテーション情報を統合することにより,拡張自己注意内のクロスイメージマッチングを強化する。
生成とマッチングを阻害するために、ステージワイドトレーニングを採用します。
まず、構造誘導と生成ネットワークをトレーニングし、その後、他のものを凍結させながら、マッチングアダプタをトレーニングする。
推論中,画像分割ペアを効率よく選択する自動例検索手法を提案する。
最小限の学習可能なパラメータを利用するにもかかわらず、AM-Adapterは最先端のパフォーマンスを達成し、セマンティックアライメントと局所的な外観の忠実さの両方に優れる。
大規模な改善は、私たちの設計選択を検証します。
コードと重みはリリースされます。
https://cvlab-kaist.github.io/AM-Adapter/
関連論文リスト
- Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Dense Text-to-Image Generation with Attention Modulation [49.287458275920514]
既存のテキストと画像の拡散モデルは、高密度キャプションを与えられた現実的なイメージを合成するのに苦労する。
そこで我々はDenseDiffusionを提案する。DenseDiffusionは、訓練済みのテキスト・ツー・イメージ・モデルを用いて、そのような高密度キャプションを扱う訓練自由な方法である。
レイアウト条件に特化して訓練したモデルを用いて、同様の品質の視覚的結果を得る。
論文 参考訳(メタデータ) (2023-08-24T17:59:01Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Masked and Adaptive Transformer for Exemplar Based Image Translation [16.93344592811513]
ドメイン間のセマンティックマッチングは難しい。
正確なクロスドメイン対応を学習するためのマスク付き適応変換器(MAT)を提案する。
品質識別型スタイル表現を得るための新しいコントラスト型スタイル学習法を考案する。
論文 参考訳(メタデータ) (2023-03-30T03:21:14Z) - Retrieval-based Spatially Adaptive Normalization for Semantic Image
Synthesis [68.1281982092765]
本稿では,Retrieval-based spatially AdaptIve normalization (RESAIL) と呼ばれる新しい正規化モジュールを提案する。
RESAILは、正規化アーキテクチャに対するピクセルレベルのきめ細かいガイダンスを提供する。
いくつかの挑戦的なデータセットの実験により、RESAILは定量的メトリクス、視覚的品質、主観的評価の観点から、最先端技術に対して好意的に機能することが示された。
論文 参考訳(メタデータ) (2022-04-06T14:21:39Z) - Image Shape Manipulation from a Single Augmented Training Sample [26.342929563689218]
DeepSIMは、単一の画像に基づく条件付き画像操作のための生成モデルである。
我々のネットワークは、画像のプリミティブ表現と画像自体とのマッピングを学習する。
論文 参考訳(メタデータ) (2021-09-13T17:44:04Z) - Image Shape Manipulation from a Single Augmented Training Sample [24.373900721120286]
DeepSIMは、単一の画像に基づく条件付き画像操作のための生成モデルである。
我々のネットワークは、画像のプリミティブ表現と画像自体とのマッピングを学習する。
論文 参考訳(メタデータ) (2020-07-02T17:55:27Z) - Example-Guided Image Synthesis across Arbitrary Scenes using Masked
Spatial-Channel Attention and Self-Supervision [83.33283892171562]
実例誘導画像合成は,最近セマンティックラベルマップと模範画像から画像を合成するために試みられている。
本稿では,ラベルマップと意味的に異なる任意のシーンイメージを例に,より困難で汎用的な課題に取り組む。
本稿では,グローバル・ローカルな特徴アライメントと合成のためのエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-18T18:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。