論文の概要: Training-free Style Transfer Emerges from h-space in Diffusion models
- arxiv url: http://arxiv.org/abs/2303.15403v1
- Date: Mon, 27 Mar 2023 17:19:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 14:18:35.268970
- Title: Training-free Style Transfer Emerges from h-space in Diffusion models
- Title(参考訳): 拡散モデルにおけるh空間からのトレーニングフリースタイル転送
- Authors: Jaeseok Jeong, Mingi Kwon, Youngjung Uh
- Abstract要約: 拡散モデル(DM)は、様々な領域で高品質な画像を合成する。
近年、スタイルCLIPのようなDMの編集がU-Netのボトルネックとなり、$h$-spaceと名付けられている。
生成過程の進行性を考慮した,ある画像の内容を他の画像に注入する原理的手法を提案する。
- 参考スコア(独自算出の注目度): 7.638042073679074
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion models (DMs) synthesize high-quality images in various domains.
However, controlling their generative process is still hazy because the
intermediate variables in the process are not rigorously studied. Recently,
StyleCLIP-like editing of DMs is found in the bottleneck of the U-Net, named
$h$-space. In this paper, we discover that DMs inherently have disentangled
representations for content and style of the resulting images: $h$-space
contains the content and the skip connections convey the style. Furthermore, we
introduce a principled way to inject content of one image to another
considering progressive nature of the generative process. Briefly, given the
original generative process, 1) the feature of the source content should be
gradually blended, 2) the blended feature should be normalized to preserve the
distribution, 3) the change of skip connections due to content injection should
be calibrated. Then, the resulting image has the source content with the style
of the original image just like image-to-image translation. Interestingly,
injecting contents to styles of unseen domains produces harmonization-like
style transfer. To the best of our knowledge, our method introduces the first
training-free feed-forward style transfer only with an unconditional pretrained
frozen generative network. The code is available at
https://curryjung.github.io/DiffStyle/.
- Abstract(参考訳): 拡散モデル(DM)は、様々な領域で高品質な画像を合成する。
しかし、その生成過程の制御は、プロセスの中間変数が厳密に研究されていないため、まだ曖昧である。
近年、スタイルCLIPのようなDMの編集がU-Netのボトルネックとなり、$h$-spaceと名付けられている。
本稿では,dms が本来,画像の内容とスタイルに絡み合った表現を持つことを見出し,その内容が $h$-space に格納され,スキップ接続がスタイルを伝達する。
さらに,生成過程の進行的性質を考慮し,ある画像の内容を他の画像に注入する原理的な方法を提案する。
略して、元の生成過程を考える。
1) ソースコンテンツの特徴を徐々にブレンドすべきである。
2) ブレンド特徴は分布を維持するために正規化されるべきである。
3) コンテントインジェクションによるスキップ接続の変更を校正すべきである。
そして、得られた画像は、画像間翻訳のように、原画像のスタイルとソース内容を有する。
興味深いことに、見当たらないドメインのスタイルにコンテンツを注入することは、調和のようなスタイル転送をもたらす。
我々の知る限り、本手法では、非条件で事前学習した凍結生成ネットワークでのみ、トレーニング不要なフィードフォワード方式の転送を導入する。
コードはhttps://curryjung.github.io/diffstyle/で入手できる。
関連論文リスト
- Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - RecDiffusion: Rectangling for Image Stitching with Diffusion Models [53.824503710254206]
画像縫合整形のための新しい拡散学習フレームワーク textbfRecDiffusion を提案する。
このフレームワークは運動拡散モデル(MDM)を組み合わせて運動場を生成し、縫合された画像の不規則な境界から幾何学的に修正された中間体へ効果的に遷移する。
論文 参考訳(メタデータ) (2024-03-28T06:22:45Z) - IIDM: Image-to-Image Diffusion Model for Semantic Image Synthesis [8.080248399002663]
本稿では,セマンティック画像合成を画像認識タスクとして扱う。
スタイル参照はまずランダムノイズで汚染され、その後IIDMによって徐々に認知される。
改良,色変換,モデルアンサンブルの3つの手法が提案され,生成品質がさらに向上した。
論文 参考訳(メタデータ) (2024-03-20T08:21:00Z) - IterInv: Iterative Inversion for Pixel-Level T2I Models [16.230193725587807]
DDIMインバージョンは、潜在拡散モデル(LDM)に根ざした一般的なプラクティスである
遅延空間で動作する大規模な事前訓練されたT2Iモデルは、オートエンコーダ機構を備えた最初の圧縮段階により詳細が失われる。
我々は,このカテゴリのT2Iモデルのイテレーティブ・インバージョン(IterInv)技術を開発し,オープンソースのDeepFloyd-IFモデルを用いてIterInvを検証する。
論文 参考訳(メタデータ) (2023-10-30T13:47:46Z) - Not All Steps are Created Equal: Selective Diffusion Distillation for
Image Manipulation [23.39614544877529]
条件付き拡散モデルは、画像操作タスクにおいて顕著な性能を示した。
ノイズが多すぎると画像の忠実度に影響を与え、編集性にはほとんど影響を与えない。
画像の忠実度と編集性の両方を保証する新しいフレームワークである拡散選択蒸留(SDD)を提案する。
論文 参考訳(メタデータ) (2023-07-17T12:42:56Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Diffusion Visual Counterfactual Explanations [51.077318228247925]
VCE(Visual Counterfactual Explanations)は、画像の決定を理解するための重要なツールである。
VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限されており、しばしば非現実的なアーティファクトを含んでいる。
本稿では、任意のイメージネット分類器に対して、視覚拡散対実説明(DVCE)を生成することでこれを克服する。
論文 参考訳(メタデータ) (2022-10-21T09:35:47Z) - Self-Guided Diffusion Models [53.825634944114285]
自己誘導拡散モデルのためのフレームワークを提案する。
本手法は,様々な画像粒度の誘導信号を提供する。
単ラベルおよび複数ラベルの画像データセットに対する実験により、自己ラベル付きガイダンスは誘導なしで拡散モデルより常に優れていることが示された。
論文 参考訳(メタデータ) (2022-10-12T17:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。