論文の概要: Fine-grained Appearance Transfer with Diffusion Models
- arxiv url: http://arxiv.org/abs/2311.16513v1
- Date: Mon, 27 Nov 2023 04:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 19:46:05.295414
- Title: Fine-grained Appearance Transfer with Diffusion Models
- Title(参考訳): 拡散モデルによる微細粒度移動
- Authors: Yuteng Ye, Guanwen Li, Hang Zhou, Cai Jiale, Junqing Yu, Yawei Luo,
Zikai Song, Qilong Xing, Youjia Zhang, Wei Yang
- Abstract要約: 画像から画像への変換(I2I)は、構造的コヒーレンスを維持しながら、画像間の視覚的外観を変化させようとしている。
本稿では, セマンティックマッチング, 外観伝達, 潜時偏差の様々な側面を統合することで, これらの課題を克服する革新的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.29713777525402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-to-image translation (I2I), and particularly its subfield of appearance
transfer, which seeks to alter the visual appearance between images while
maintaining structural coherence, presents formidable challenges. Despite
significant advancements brought by diffusion models, achieving fine-grained
transfer remains complex, particularly in terms of retaining detailed
structural elements and ensuring information fidelity. This paper proposes an
innovative framework designed to surmount these challenges by integrating
various aspects of semantic matching, appearance transfer, and latent
deviation. A pivotal aspect of our approach is the strategic use of the
predicted $x_0$ space by diffusion models within the latent space of diffusion
processes. This is identified as a crucial element for the precise and natural
transfer of fine-grained details. Our framework exploits this space to
accomplish semantic alignment between source and target images, facilitating
mask-wise appearance transfer for improved feature acquisition. A significant
advancement of our method is the seamless integration of these features into
the latent space, enabling more nuanced latent deviations without necessitating
extensive model retraining or fine-tuning. The effectiveness of our approach is
demonstrated through extensive experiments, which showcase its ability to
adeptly handle fine-grained appearance transfers across a wide range of
categories and domains. We provide our code at
https://github.com/babahui/Fine-grained-Appearance-Transfer
- Abstract(参考訳): イメージ・ツー・イメージ翻訳(I2I)、特にそのサブフィールドは、構造的コヒーレンスを維持しながら画像間の視覚的外観を変えようとするが、重大な課題を呈している。
拡散モデルによる顕著な進歩にもかかわらず、細粒度移動を達成することは、特に詳細な構造的要素を保持し、情報の忠実性を確保するという点で複雑である。
本稿では, セマンティックマッチング, 外観伝達, 潜時偏差の様々な側面を統合することで, これらの課題を克服する革新的なフレームワークを提案する。
我々のアプローチの重要な側面は、拡散過程の潜在空間内の拡散モデルによる予測された$x_0$空間の戦略的利用である。
これは微細な詳細を正確に自然に伝達するための重要な要素である。
当社のフレームワークでは,この空間を利用して,ソース画像とターゲット画像間の意味的アライメントを実現している。
提案手法の顕著な進歩は,これらの特徴を潜在空間にシームレスに統合することで,広範囲なモデル再訓練や微調整を必要とせず,より微妙な潜伏偏差を実現することである。
本手法の有効性は広範囲にわたる実験によって実証され,様々なカテゴリや領域にわたる微細な外観の移動を適切に処理する能力を示す。
https://github.com/babahui/Fine-grained-Appearance-Transferでコードを提供しています。
関連論文リスト
- Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas [33.334956022229846]
本稿では,Merge-Attend-Diffuse演算子を提案する。
具体的には、拡散経路をマージし、自己および横断的意図をプログラムし、集約された潜在空間で操作する。
提案手法は,生成した画像の入力プロンプトと視覚的品質との整合性を維持しつつ,セマンティック・コヒーレンスを増大させる。
論文 参考訳(メタデータ) (2024-08-28T09:22:32Z) - Training-free Composite Scene Generation for Layout-to-Image Synthesis [29.186425845897947]
本稿では,拡散条件下での対角的意味交叉を克服するために,新しい学習自由アプローチを提案する。
本稿では,(1)トークン競合を解消し,正確な概念合成を保証するためのトークン間制約,2)画素間関係を改善する自己注意制約,という2つの革新的な制約を提案する。
本評価では,拡散過程の導出にレイアウト情報を活用することで,忠実度と複雑さを向上したコンテンツリッチな画像を生成することの有効性を確認した。
論文 参考訳(メタデータ) (2024-07-18T15:48:07Z) - InsertDiffusion: Identity Preserving Visualization of Objects through a Training-Free Diffusion Architecture [0.0]
InsertDiffusionは、オブジェクトを画像に効率的に埋め込む、トレーニング不要の拡散アーキテクチャである。
提案手法は既製の生成モデルを利用し,微調整の必要性を排除している。
生成タスクを独立したステップに分解することで、InsertDiffusionはスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2024-07-15T10:15:58Z) - DiffFAE: Advancing High-fidelity One-shot Facial Appearance Editing with Space-sensitive Customization and Semantic Preservation [84.0586749616249]
本稿では,高忠実度顔画像編集に適した1段階かつ高効率な拡散ベースフレームワークDiffFAEを提案する。
高忠実度クエリ属性転送には、空間感性物理カスタマイズ(SPC)を採用し、忠実度と一般化能力を保証している。
ソース属性を保存するために、Regional-responsive Semantic Composition (RSC)を導入する。
このモジュールは、切り離されたソースを無視する特徴を学習するためにガイドされ、髪、服、背景などの非顔的属性からアーティファクトを保存し緩和する。
論文 参考訳(メタデータ) (2024-03-26T12:53:10Z) - Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement [58.9768112704998]
遠方表現学習は、観測データ内の本質的要因を抽出する試みである。
我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。
これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
論文 参考訳(メタデータ) (2024-02-15T05:07:54Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - Diamond in the rough: Improving image realism by traversing the GAN
latent space [0.0]
改良されたフォトリアリズムと整合する潜在空間の方向を求める教師なし手法を提案する。
提案手法は,生成画像の忠実度を高めつつ,ネットワークを不変にしておく。
私たちは、イメージ空間の最小の変化をもたらす潜在空間の方向を見つけるために、単純なジェネレータインバージョンを使用します。
論文 参考訳(メタデータ) (2021-04-12T14:45:29Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。