論文の概要: Compositional Inversion for Stable Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.08048v2
- Date: Thu, 14 Dec 2023 08:40:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 11:21:52.685900
- Title: Compositional Inversion for Stable Diffusion Models
- Title(参考訳): 安定拡散モデルの組成インバージョン
- Authors: Xu-Lu Zhang, Xiao-Yong Wei, Jin-Lin Wu, Tian-Yi Zhang, Zhaoxiang
Zhang, Zhen Lei, Qing Li
- Abstract要約: ユーザ画像から提供される関心の概念を取り入れてパーソナライズされた画像を生成する。
既存の方法はしばしば過度に適合する問題に悩まされ、倒立概念の圧倒的な存在が他の望ましい概念の欠如につながっている。
本稿では,合成埋め込みのコア分布への反転過程を導出する手法を提案する。
- 参考スコア(独自算出の注目度): 64.79261401944994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inversion methods, such as Textual Inversion, generate personalized images by
incorporating concepts of interest provided by user images. However, existing
methods often suffer from overfitting issues, where the dominant presence of
inverted concepts leads to the absence of other desired concepts. It stems from
the fact that during inversion, the irrelevant semantics in the user images are
also encoded, forcing the inverted concepts to occupy locations far from the
core distribution in the embedding space. To address this issue, we propose a
method that guides the inversion process towards the core distribution for
compositional embeddings. Additionally, we introduce a spatial regularization
approach to balance the attention on the concepts being composed. Our method is
designed as a post-training approach and can be seamlessly integrated with
other inversion methods. Experimental results demonstrate the effectiveness of
our proposed approach in mitigating the overfitting problem and generating more
diverse and balanced compositions of concepts in the synthesized images. The
source code is available at
https://github.com/zhangxulu1996/Compositional-Inversion.
- Abstract(参考訳): テキストインバージョンのようなインバージョンメソッドは、ユーザイメージが提供する関心の概念を取り入れてパーソナライズされたイメージを生成する。
しかし、既存の方法はしばしば過度に適合する問題に悩まされ、倒立概念の存在が他の望ましい概念の欠如につながっている。
インバージョンの間、ユーザイメージの無関係なセマンティクスもエンコードされ、インバージョンされた概念は埋め込み空間のコア分布から遠く離れた場所を占有せざるを得ないという事実に起因している。
この問題に対処するために,コンポジション埋め込みのためのコア分布への反転過程を導出する手法を提案する。
さらに,集合する概念に対する注意のバランスをとるための空間正規化手法を提案する。
本手法はトレーニング後のアプローチとして設計され,他のインバージョン手法とシームレスに統合することができる。
実験の結果,提案手法は,過剰フィッティング問題を緩和し,合成画像における概念のより多様でバランスの取れた構成を生成する際に有効であることが示された。
ソースコードはhttps://github.com/zhangxulu1996/compositional-inversionで入手できる。
関連論文リスト
- Training-free Composite Scene Generation for Layout-to-Image Synthesis [29.186425845897947]
本稿では,拡散条件下での対角的意味交叉を克服するために,新しい学習自由アプローチを提案する。
本稿では,(1)トークン競合を解消し,正確な概念合成を保証するためのトークン間制約,2)画素間関係を改善する自己注意制約,という2つの革新的な制約を提案する。
本評価では,拡散過程の導出にレイアウト情報を活用することで,忠実度と複雑さを向上したコンテンツリッチな画像を生成することの有効性を確認した。
論文 参考訳(メタデータ) (2024-07-18T15:48:07Z) - Safeguard Text-to-Image Diffusion Models with Human Feedback Inversion [51.931083971448885]
本稿では,Human Feedback Inversion (HFI) というフレームワークを提案する。
実験の結果,画像品質を維持しながら,好ましくないコンテンツ生成を著しく削減し,公的な領域におけるAIの倫理的展開に寄与することが示された。
論文 参考訳(メタデータ) (2024-07-17T05:21:41Z) - FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。
本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文 参考訳(メタデータ) (2024-07-06T03:35:43Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Diffusion Posterior Illumination for Ambiguity-aware Inverse Rendering [63.24476194987721]
画像からシーン特性を推定する逆レンダリングは、困難な逆問題である。
既存のソリューションの多くは、プリエントを逆レンダリングパイプラインに組み込んで、プラウシブルなソリューションを奨励している。
本稿では,自然照明マップ上で事前学習した確率拡散モデルを最適化フレームワークに統合する手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T12:39:28Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - JoIN: Joint GANs Inversion for Intrinsic Image Decomposition [16.02463667910604]
我々は,GAN(Generative Adversarial Networks)のバンクを用いて,不測の逆画像問題を解決することを提案する。
提案手法は,複雑な画像分布をキャプチャするGANの実証的な成功に基づいている。
論文 参考訳(メタデータ) (2023-05-18T22:09:32Z) - Zero-Shot Contrastive Loss for Text-Guided Diffusion Image Style
Transfer [38.957512116073616]
我々は、追加の微調整や補助的なネットワークを必要としない拡散モデルに対して、ゼロショットのコントラスト損失を提案する。
本手法は,ゼロショット方式で,ソース画像と同一のセマンティックな内容の画像を生成できる。
論文 参考訳(メタデータ) (2023-03-15T13:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。