Fugu-MT 論文翻訳(概要): Compositional Inversion for Stable Diffusion Models

論文の概要: Compositional Inversion for Stable Diffusion Models

arxiv url: http://arxiv.org/abs/2312.08048v3
Date: Thu, 11 Jan 2024 07:21:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-13 02:54:36.486722
Title: Compositional Inversion for Stable Diffusion Models
Title（参考訳）: 安定拡散モデルの組成インバージョン
Authors: Xulu Zhang, Xiao-Yong Wei, Jinlin Wu, Tianyi Zhang, Zhaoxiang Zhang, Zhen Lei, Qing Li
Abstract要約: ユーザ画像から提供される関心の概念を取り入れてパーソナライズされた画像を生成する。既存の方法はしばしば過度に適合する問題に悩まされ、倒立概念の圧倒的な存在が他の望ましい概念の欠如につながっている。本稿では,合成埋め込みのコア分布への反転過程を導出する手法を提案する。
参考スコア（独自算出の注目度）: 64.79261401944994
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Inversion methods, such as Textual Inversion, generate personalized images by incorporating concepts of interest provided by user images. However, existing methods often suffer from overfitting issues, where the dominant presence of inverted concepts leads to the absence of other desired concepts. It stems from the fact that during inversion, the irrelevant semantics in the user images are also encoded, forcing the inverted concepts to occupy locations far from the core distribution in the embedding space. To address this issue, we propose a method that guides the inversion process towards the core distribution for compositional embeddings. Additionally, we introduce a spatial regularization approach to balance the attention on the concepts being composed. Our method is designed as a post-training approach and can be seamlessly integrated with other inversion methods. Experimental results demonstrate the effectiveness of our proposed approach in mitigating the overfitting problem and generating more diverse and balanced compositions of concepts in the synthesized images. The source code is available at https://github.com/zhangxulu1996/Compositional-Inversion.
Abstract（参考訳）: テキストインバージョンのようなインバージョンメソッドは、ユーザイメージが提供する関心の概念を取り入れてパーソナライズされたイメージを生成する。しかし、既存の方法はしばしば過度に適合する問題に悩まされ、倒立概念の存在が他の望ましい概念の欠如につながっている。インバージョンの間、ユーザイメージの無関係なセマンティクスもエンコードされ、インバージョンされた概念は埋め込み空間のコア分布から遠く離れた場所を占有せざるを得ないという事実に起因している。この問題に対処するために,コンポジション埋め込みのためのコア分布への反転過程を導出する手法を提案する。さらに,集合する概念に対する注意のバランスをとるための空間正規化手法を提案する。本手法はトレーニング後のアプローチとして設計され,他のインバージョン手法とシームレスに統合することができる。実験の結果,提案手法は,過剰フィッティング問題を緩和し,合成画像における概念のより多様でバランスの取れた構成を生成する際に有効であることが示された。ソースコードはhttps://github.com/zhangxulu1996/compositional-inversionで入手できる。

関連論文リスト

Comparison Reveals Commonality: Customized Image Generation through Contrastive Inversion [22.481176245267328]
本稿では,入力画像の比較を付加情報に頼ることなく,共通概念を識別する手法であるContrastive Inversionを提案する。我々は、画像的に補助的なテキストトークンとともに、コントラスト学習を用いてターゲットトークンを訓練し、ターゲットの真の意味をよく理解する。
論文参考訳（メタデータ） (2025-08-11T08:36:29Z)
Equivariant Denoisers for Image Restoration [8.865896660863681]
等変復号器と最適化に基づいて,等変正規化(ERED)と呼ばれる統一フレームワークを提案する。本稿では,このアルゴリズムの収束性を分析し,その実用性について論じる。
論文参考訳（メタデータ） (2024-12-06T10:22:00Z)
Training-free Composite Scene Generation for Layout-to-Image Synthesis [29.186425845897947]
本稿では,拡散条件下での対角的意味交叉を克服するために,新しい学習自由アプローチを提案する。本稿では,(1)トークン競合を解消し,正確な概念合成を保証するためのトークン間制約,2)画素間関係を改善する自己注意制約,という2つの革新的な制約を提案する。本評価では,拡散過程の導出にレイアウト情報を活用することで,忠実度と複雑さを向上したコンテンツリッチな画像を生成することの有効性を確認した。
論文参考訳（メタデータ） (2024-07-18T15:48:07Z)
Safeguard Text-to-Image Diffusion Models with Human Feedback Inversion [51.931083971448885]
本稿では,Human Feedback Inversion (HFI) というフレームワークを提案する。実験の結果,画像品質を維持しながら,好ましくないコンテンツ生成を著しく削減し,公的な領域におけるAIの倫理的展開に寄与することが示された。
論文参考訳（メタデータ） (2024-07-17T05:21:41Z)
FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文参考訳（メタデータ） (2024-07-06T03:35:43Z)
Financial Models in Generative Art: Black-Scholes-Inspired Concept Blending in Text-to-Image Diffusion [57.03116054807942]
本稿では,事前訓練されたテキスト-画像拡散モデルにおける概念ブレンディングの新たなアプローチを提案する。我々は,ブラック・スコールズ・フレームワークのマルコフ力学を生かした,概念ブレンディングのための堅牢なアルゴリズムを導出する。我々の研究は、経済的にインスパイアされた技術が、生成AIのテキストと画像の融合を促進できることを示している。
論文参考訳（メタデータ） (2024-05-22T14:25:57Z)
Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文参考訳（メタデータ） (2023-11-30T10:36:19Z)
Diffusion Posterior Illumination for Ambiguity-aware Inverse Rendering [63.24476194987721]
画像からシーン特性を推定する逆レンダリングは、困難な逆問題である。既存のソリューションの多くは、プリエントを逆レンダリングパイプラインに組み込んで、プラウシブルなソリューションを奨励している。本稿では,自然照明マップ上で事前学習した確率拡散モデルを最適化フレームワークに統合する手法を提案する。
論文参考訳（メタデータ） (2023-09-30T12:39:28Z)
Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。次に、新しい2段階のカスタマイズプロセスを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:04Z)
JoIN: Joint GANs Inversion for Intrinsic Image Decomposition [16.02463667910604]
我々は,GAN(Generative Adversarial Networks)のバンクを用いて,不測の逆画像問題を解決することを提案する。提案手法は,複雑な画像分布をキャプチャするGANの実証的な成功に基づいている。
論文参考訳（メタデータ） (2023-05-18T22:09:32Z)
Zero-Shot Contrastive Loss for Text-Guided Diffusion Image Style Transfer [38.957512116073616]
我々は、追加の微調整や補助的なネットワークを必要としない拡散モデルに対して、ゼロショットのコントラスト損失を提案する。本手法は,ゼロショット方式で,ソース画像と同一のセマンティックな内容の画像を生成できる。
論文参考訳（メタデータ） (2023-03-15T13:47:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。