論文の概要: Training-free Content Injection using h-space in Diffusion Models
- arxiv url: http://arxiv.org/abs/2303.15403v2
- Date: Thu, 4 Jan 2024 09:23:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 17:39:43.079771
- Title: Training-free Content Injection using h-space in Diffusion Models
- Title(参考訳): 拡散モデルにおけるh空間を用いたトレーニングフリーコンテンツ注入
- Authors: Jaeseok Jeong, Mingi Kwon, Youngjung Uh
- Abstract要約: 本稿では,生成過程における特徴を組み合わせることで,ある画像の内容を他の画像に注入する手法を提案する。
カスタム拡散アプローチとは異なり、我々の手法は時間を要する最適化や微調整を必要としない。
- 参考スコア(独自算出の注目度): 16.51521884698886
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion models (DMs) synthesize high-quality images in various domains.
However, controlling their generative process is still hazy because the
intermediate variables in the process are not rigorously studied. Recently, the
bottleneck feature of the U-Net, namely $h$-space, is found to convey the
semantics of the resulting image. It enables StyleCLIP-like latent editing
within DMs. In this paper, we explore further usage of $h$-space beyond
attribute editing, and introduce a method to inject the content of one image
into another image by combining their features in the generative processes.
Briefly, given the original generative process of the other image, 1) we
gradually blend the bottleneck feature of the content with proper
normalization, and 2) we calibrate the skip connections to match the injected
content. Unlike custom-diffusion approaches, our method does not require
time-consuming optimization or fine-tuning. Instead, our method manipulates
intermediate features within a feed-forward generative process. Furthermore,
our method does not require supervision from external networks. The code is
available at https://curryjung.github.io/InjectFusion/
- Abstract(参考訳): 拡散モデル(DM)は、様々な領域で高品質な画像を合成する。
しかし、その生成過程の制御は、プロセスの中間変数が厳密に研究されていないため、まだ曖昧である。
最近では、U-Netのボトルネック機能である$h$-spaceが、結果の画像の意味を伝達している。
DM内でStyleCLIPライクな潜時編集を可能にする。
本稿では,属性編集以外の$h$-spaceのさらなる利用について検討し,その特徴を生成プロセスに組み合わせることにより,ある画像の内容を別の画像に注入する手法を提案する。
略して、他の画像の本来の生成過程を考える。
1) コンテンツのボトルネック特徴と適切な正規化を徐々にブレンドし、
2) 挿入された内容と一致するようにスキップ接続を校正する。
カスタム拡散アプローチとは異なり、我々の手法は時間を要する最適化や微調整を必要としない。
代わりに、本手法はフィードフォワード生成プロセス内で中間機能を操作する。
さらに,本手法は外部ネットワークの監視を必要としない。
コードはhttps://curryjung.github.io/injectfusion/で入手できる。
関連論文リスト
- Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - RecDiffusion: Rectangling for Image Stitching with Diffusion Models [53.824503710254206]
画像縫合整形のための新しい拡散学習フレームワーク textbfRecDiffusion を提案する。
このフレームワークは運動拡散モデル(MDM)を組み合わせて運動場を生成し、縫合された画像の不規則な境界から幾何学的に修正された中間体へ効果的に遷移する。
論文 参考訳(メタデータ) (2024-03-28T06:22:45Z) - IIDM: Image-to-Image Diffusion Model for Semantic Image Synthesis [8.080248399002663]
本稿では,セマンティック画像合成を画像認識タスクとして扱う。
スタイル参照はまずランダムノイズで汚染され、その後IIDMによって徐々に認知される。
改良,色変換,モデルアンサンブルの3つの手法が提案され,生成品質がさらに向上した。
論文 参考訳(メタデータ) (2024-03-20T08:21:00Z) - IterInv: Iterative Inversion for Pixel-Level T2I Models [16.230193725587807]
DDIMインバージョンは、潜在拡散モデル(LDM)に根ざした一般的なプラクティスである
遅延空間で動作する大規模な事前訓練されたT2Iモデルは、オートエンコーダ機構を備えた最初の圧縮段階により詳細が失われる。
我々は,このカテゴリのT2Iモデルのイテレーティブ・インバージョン(IterInv)技術を開発し,オープンソースのDeepFloyd-IFモデルを用いてIterInvを検証する。
論文 参考訳(メタデータ) (2023-10-30T13:47:46Z) - Not All Steps are Created Equal: Selective Diffusion Distillation for
Image Manipulation [23.39614544877529]
条件付き拡散モデルは、画像操作タスクにおいて顕著な性能を示した。
ノイズが多すぎると画像の忠実度に影響を与え、編集性にはほとんど影響を与えない。
画像の忠実度と編集性の両方を保証する新しいフレームワークである拡散選択蒸留(SDD)を提案する。
論文 参考訳(メタデータ) (2023-07-17T12:42:56Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Diffusion Visual Counterfactual Explanations [51.077318228247925]
VCE(Visual Counterfactual Explanations)は、画像の決定を理解するための重要なツールである。
VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限されており、しばしば非現実的なアーティファクトを含んでいる。
本稿では、任意のイメージネット分類器に対して、視覚拡散対実説明(DVCE)を生成することでこれを克服する。
論文 参考訳(メタデータ) (2022-10-21T09:35:47Z) - Self-Guided Diffusion Models [53.825634944114285]
自己誘導拡散モデルのためのフレームワークを提案する。
本手法は,様々な画像粒度の誘導信号を提供する。
単ラベルおよび複数ラベルの画像データセットに対する実験により、自己ラベル付きガイダンスは誘導なしで拡散モデルより常に優れていることが示された。
論文 参考訳(メタデータ) (2022-10-12T17:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。