論文の概要: Appearance Matching Adapter for Exemplar-based Semantic Image Synthesis
- arxiv url: http://arxiv.org/abs/2412.03150v1
- Date: Wed, 04 Dec 2024 09:17:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:08:13.422448
- Title: Appearance Matching Adapter for Exemplar-based Semantic Image Synthesis
- Title(参考訳): 表現型セマンティック画像合成のための外観整合適応器
- Authors: Siyoon Jin, Jisu Nam, Jiyoung Kim, Dahyun Chung, Yeong-Seok Kim, Joonhyung Park, Heonjeong Chu, Seungryong Kim,
- Abstract要約: Exemplar-based semantic image synthesisは、模範画像の外観を保ちながら、与えられた意味内容に整合した画像を生成することを目的としている。
近年のチューニングフリーアプローチでは、局所的な外観を模範画像から合成画像に転送することで、この制限に対処している。
本稿では,拡張自己注意内でのクロスイメージマッチングを強化する学習可能なフレームワークであるアプレンスマッチングアダプタ (AM-Adapter) を提案する。
- 参考スコア(独自算出の注目度): 29.23745176017559
- License:
- Abstract: Exemplar-based semantic image synthesis aims to generate images aligned with given semantic content while preserving the appearance of an exemplar image. Conventional structure-guidance models, such as ControlNet, are limited in that they cannot directly utilize exemplar images as input, relying instead solely on text prompts to control appearance. Recent tuning-free approaches address this limitation by transferring local appearance from the exemplar image to the synthesized image through implicit cross-image matching in the augmented self-attention mechanism of pre-trained diffusion models. However, these methods face challenges when applied to content-rich scenes with significant geometric deformations, such as driving scenes. In this paper, we propose the Appearance Matching Adapter (AM-Adapter), a learnable framework that enhances cross-image matching within augmented self-attention by incorporating semantic information from segmentation maps. To effectively disentangle generation and matching processes, we adopt a stage-wise training approach. Initially, we train the structure-guidance and generation networks, followed by training the AM-Adapter while keeping the other networks frozen. During inference, we introduce an automated exemplar retrieval method to efficiently select exemplar image-segmentation pairs. Despite utilizing a limited number of learnable parameters, our method achieves state-of-the-art performance, excelling in both semantic alignment preservation and local appearance fidelity. Extensive ablation studies further validate our design choices. Code and pre-trained weights will be publicly available.: https://cvlab-kaist.github.io/AM-Adapter/
- Abstract(参考訳): Exemplar-based semantic image synthesisは、模範画像の外観を保ちながら、与えられた意味内容に整合した画像を生成することを目的としている。
ControlNetのような従来の構造誘導モデルは、外観を制御するためにテキストプロンプトのみに頼るのではなく、例のイメージを直接入力として利用できないという点で制限されている。
近年のチューニング不要な手法は、事前学習拡散モデルの自己認識機構の強化において、暗黙のクロスイメージマッチングを通じて、模範画像から合成画像への局所的な外観を移すことにより、この制限に対処している。
しかし、これらの手法は、ドライビングシーンのような大きな幾何学的変形を伴うコンテンツリッチなシーンに適用した場合、課題に直面している。
本稿では,セグメンテーションマップからのセグメンテーション情報を組み込むことで,拡張自己注意内でのクロスイメージマッチングを強化するための学習可能なフレームワークであるアスペクトマッチングアダプタ(AM-Adapter)を提案する。
生成プロセスとマッチングプロセスを効果的に切り離すために、ステージワイドトレーニングアプローチを採用する。
当初、構造誘導および生成ネットワークを訓練し、その後、他のネットワークを凍結させながらAM-Adapterを訓練した。
推論中,画像分割ペアを効率よく選択する自動例検索手法を提案する。
学習可能なパラメータの数が限られているにもかかわらず、本手法は最先端の性能を実現し、セマンティックアライメント保存と局所的な外観忠実度の両方に優れる。
大規模なアブレーション研究は、我々の設計選択をさらに検証する。
コードとトレーニング済みのウェイトは一般公開される予定だ。
https://cvlab-kaist.github.io/AM-Adapter/
関連論文リスト
- Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Dense Text-to-Image Generation with Attention Modulation [49.287458275920514]
既存のテキストと画像の拡散モデルは、高密度キャプションを与えられた現実的なイメージを合成するのに苦労する。
そこで我々はDenseDiffusionを提案する。DenseDiffusionは、訓練済みのテキスト・ツー・イメージ・モデルを用いて、そのような高密度キャプションを扱う訓練自由な方法である。
レイアウト条件に特化して訓練したモデルを用いて、同様の品質の視覚的結果を得る。
論文 参考訳(メタデータ) (2023-08-24T17:59:01Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Masked and Adaptive Transformer for Exemplar Based Image Translation [16.93344592811513]
ドメイン間のセマンティックマッチングは難しい。
正確なクロスドメイン対応を学習するためのマスク付き適応変換器(MAT)を提案する。
品質識別型スタイル表現を得るための新しいコントラスト型スタイル学習法を考案する。
論文 参考訳(メタデータ) (2023-03-30T03:21:14Z) - Retrieval-based Spatially Adaptive Normalization for Semantic Image
Synthesis [68.1281982092765]
本稿では,Retrieval-based spatially AdaptIve normalization (RESAIL) と呼ばれる新しい正規化モジュールを提案する。
RESAILは、正規化アーキテクチャに対するピクセルレベルのきめ細かいガイダンスを提供する。
いくつかの挑戦的なデータセットの実験により、RESAILは定量的メトリクス、視覚的品質、主観的評価の観点から、最先端技術に対して好意的に機能することが示された。
論文 参考訳(メタデータ) (2022-04-06T14:21:39Z) - Image Shape Manipulation from a Single Augmented Training Sample [26.342929563689218]
DeepSIMは、単一の画像に基づく条件付き画像操作のための生成モデルである。
我々のネットワークは、画像のプリミティブ表現と画像自体とのマッピングを学習する。
論文 参考訳(メタデータ) (2021-09-13T17:44:04Z) - Image Shape Manipulation from a Single Augmented Training Sample [24.373900721120286]
DeepSIMは、単一の画像に基づく条件付き画像操作のための生成モデルである。
我々のネットワークは、画像のプリミティブ表現と画像自体とのマッピングを学習する。
論文 参考訳(メタデータ) (2020-07-02T17:55:27Z) - Example-Guided Image Synthesis across Arbitrary Scenes using Masked
Spatial-Channel Attention and Self-Supervision [83.33283892171562]
実例誘導画像合成は,最近セマンティックラベルマップと模範画像から画像を合成するために試みられている。
本稿では,ラベルマップと意味的に異なる任意のシーンイメージを例に,より困難で汎用的な課題に取り組む。
本稿では,グローバル・ローカルな特徴アライメントと合成のためのエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-18T18:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。