論文の概要: DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations
- arxiv url: http://arxiv.org/abs/2403.06951v2
- Date: Tue, 12 Mar 2024 03:38:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 11:24:32.605132
- Title: DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations
- Title(参考訳): deadiff: 不連続表現を持つ効率的なスタイリゼーション拡散モデル
- Authors: Tianhao Qi, Shancheng Fang, Yanze Wu, Hongtao Xie, Jiawei Liu, Lang
Chen, Qian He, Yongdong Zhang
- Abstract要約: 現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。
DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
- 参考スコア(独自算出の注目度): 64.43387739794531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The diffusion-based text-to-image model harbors immense potential in
transferring reference style. However, current encoder-based approaches
significantly impair the text controllability of text-to-image models while
transferring styles. In this paper, we introduce DEADiff to address this issue
using the following two strategies: 1) a mechanism to decouple the style and
semantics of reference images. The decoupled feature representations are first
extracted by Q-Formers which are instructed by different text descriptions.
Then they are injected into mutually exclusive subsets of cross-attention
layers for better disentanglement. 2) A non-reconstructive learning method. The
Q-Formers are trained using paired images rather than the identical target, in
which the reference image and the ground-truth image are with the same style or
semantics. We show that DEADiff attains the best visual stylization results and
optimal balance between the text controllability inherent in the text-to-image
model and style similarity to the reference image, as demonstrated both
quantitatively and qualitatively. Our project page is
https://tianhao-qi.github.io/DEADiff/.
- Abstract(参考訳): 拡散ベースのテキストから画像へのモデルは、参照スタイルを転送する大きな可能性を秘めている。
しかし、現在のエンコーダベースのアプローチは、スタイルを転送しながらテキストから画像へのモデルのテキスト制御性を著しく損なう。
本稿では、以下の2つの戦略を用いて、この問題に対処するためのDEADiffを紹介する。
1)参照画像のスタイルと意味を分離するメカニズム。
分離された特徴表現は、まず異なるテキスト記述によって指示されるqフォーマによって抽出される。
そして、それらを相互に排他的な相互アテンション層のサブセットに注入して、より良い絡み合うようにします。
2)非再構成学習法。
q-formersは、同一のターゲットではなくペア画像を使用して訓練され、参照画像と接地画像は同じスタイルまたは意味を持つ。
そこで本研究では,DADiffがテキスト・画像モデルに固有のテキスト制御性と,参照画像に類似するスタイルとの最適バランスを,定量的かつ定性的に示すことができることを示す。
プロジェクトページはhttps://tianhao-qi.github.io/deadiff/。
関連論文リスト
- Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Semantic Guidance Tuning for Text-To-Image Diffusion Models [3.3881449308956726]
本研究では,推論中の拡散モデルの誘導方向を変調する学習自由アプローチを提案する。
まず,素早い意味論を概念の集合に分解し,各概念に関するガイダンスの軌跡をモニタリングする。
そこで本研究では,モデルが発散する概念に対して,誘導方向を制御するための手法を考案した。
論文 参考訳(メタデータ) (2023-12-26T09:02:17Z) - Reinforcement Learning from Diffusion Feedback: Q* for Image Search [2.5835347022640254]
モデル非依存学習を用いた画像生成のための2つのモデルを提案する。
RLDFは、事前保存された報酬関数誘導による視覚模倣のための特異なアプローチである。
クラス一貫性と強力な視覚的多様性を示す様々な領域にまたがる高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-11-27T09:20:12Z) - Self-supervised Cross-view Representation Reconstruction for Change
Captioning [113.08380679787247]
変更キャプションは、類似したイメージのペアの違いを記述することを目的としている。
その主な課題は、視点変化によって引き起こされる擬似変化の下で、安定した差分表現を学習する方法である。
自己教師型クロスビュー表現再構成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-28T09:28:50Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - DSI2I: Dense Style for Unpaired Image-to-Image Translation [61.42001469770537]
Inpaired exemplar-based image-to-image (UEI2I) は、ソースイメージをターゲット画像領域に変換することを目的としている。
対照的に、我々はスタイルを高密度な特徴写像として表現し、外部のセマンティック情報を必要とせずに、よりきめ細かいソース画像への転送を可能にすることを提案する。
次に、知覚的・敵対的な損失に頼って、密集したスタイルとコンテンツ表現を混乱させ、教師なしのドメイン間セマンティック対応を利用して、模範的なスタイルをソースコンテンツにワープする。
論文 参考訳(メタデータ) (2022-12-26T18:45:25Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - GLIDE: Towards Photorealistic Image Generation and Editing with
Text-Guided Diffusion Models [16.786221846896108]
テキスト条件画像合成問題に対する拡散モデルについて検討し、2つの異なるガイダンス戦略を比較した。
後者は、フォトリアリズムとキャプションの類似性の両方において、人間の評価者によって好まれており、しばしばフォトリアリスティックなサンプルを生成する。
我々のモデルは、画像のインペイントを行うように微調整することができ、強力なテキスト駆動画像編集を可能にします。
論文 参考訳(メタデータ) (2021-12-20T18:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。