論文の概要: DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations
- arxiv url: http://arxiv.org/abs/2403.06951v1
- Date: Mon, 11 Mar 2024 17:35:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 17:43:15.310915
- Title: DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations
- Title(参考訳): deadiff: 不連続表現を持つ効率的なスタイリゼーション拡散モデル
- Authors: Tianhao Qi, Shancheng Fang, Yanze Wu, Hongtao Xie, Jiawei Liu, Lang
Chen, Qian He, Yongdong Zhang
- Abstract要約: 現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてtextitDEADiffを導入します。
そこで,DADiff はテキスト・ツー・イメージ・モデルに固有のテキスト制御性と,参照画像とスタイルの類似性との間に最適な視覚的スタイリング結果と最適なバランスを得られることを示す。
- 参考スコア(独自算出の注目度): 64.43387739794531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The diffusion-based text-to-image model harbors immense potential in
transferring reference style. However, current encoder-based approaches
significantly impair the text controllability of text-to-image models while
transferring styles. In this paper, we introduce \textit{DEADiff} to address
this issue using the following two strategies: 1) a mechanism to decouple the
style and semantics of reference images. The decoupled feature representations
are first extracted by Q-Formers which are instructed by different text
descriptions. Then they are injected into mutually exclusive subsets of
cross-attention layers for better disentanglement. 2) A non-reconstructive
learning method. The Q-Formers are trained using paired images rather than the
identical target, in which the reference image and the ground-truth image are
with the same style or semantics. We show that DEADiff attains the best visual
stylization results and optimal balance between the text controllability
inherent in the text-to-image model and style similarity to the reference
image, as demonstrated both quantitatively and qualitatively. Our project page
is~\href{https://tianhao-qi.github.io/DEADiff/}{https://tianhao-qi.github.io/DEADiff/}.
- Abstract(参考訳): 拡散ベースのテキストから画像へのモデルは、参照スタイルを転送する大きな可能性を秘めている。
しかし、現在のエンコーダベースのアプローチは、スタイルを転送しながらテキストから画像へのモデルのテキスト制御性を著しく損なう。
本稿では,以下の2つの戦略を用いてこの問題に対処するために, \textit{deadiff} を導入する。
1)参照画像のスタイルと意味を分離するメカニズム。
分離された特徴表現は、まず異なるテキスト記述によって指示されるqフォーマによって抽出される。
そして、それらを相互に排他的な相互アテンション層のサブセットに注入して、より良い絡み合うようにします。
2)非再構成学習法。
q-formersは、同一のターゲットではなくペア画像を使用して訓練され、参照画像と接地画像は同じスタイルまたは意味を持つ。
そこで本研究では,DADiffがテキスト・画像モデルに固有のテキスト制御性と,参照画像に類似するスタイルとの最適バランスを,定量的かつ定性的に示すことができることを示す。
私たちのプロジェクトページは~\href{https://tianhao-qi.github.io/DEADiff/}{https://tianhao-qi.github.io/DEADiff/}です。
関連論文リスト
- Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Reinforcement Learning from Diffusion Feedback: Q* for Image Search [2.5835347022640254]
モデル非依存学習を用いた画像生成のための2つのモデルを提案する。
RLDFは、事前保存された報酬関数誘導による視覚模倣のための特異なアプローチである。
クラス一貫性と強力な視覚的多様性を示す様々な領域にまたがる高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-11-27T09:20:12Z) - Self-supervised Cross-view Representation Reconstruction for Change
Captioning [113.08380679787247]
変更キャプションは、類似したイメージのペアの違いを記述することを目的としている。
その主な課題は、視点変化によって引き起こされる擬似変化の下で、安定した差分表現を学習する方法である。
自己教師型クロスビュー表現再構成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-28T09:28:50Z) - DSI2I: Dense Style for Unpaired Image-to-Image Translation [70.93865212275412]
Inpaired exemplar-based image-to-image (UEI2I) 翻訳は、ソース画像をターゲット画像領域に変換する。
我々は,スタイルを高密度な特徴写像として表現し,外部意味情報を必要とせず,よりきめ細かなソース画像の転送を可能にすることを提案する。
以上の結果から,本手法による翻訳は,より多様であり,資料内容の保存性が向上し,最先端の手法と比較すると,先例に近づいたことが示唆された。
論文 参考訳(メタデータ) (2022-12-26T18:45:25Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - GLIDE: Towards Photorealistic Image Generation and Editing with
Text-Guided Diffusion Models [16.786221846896108]
テキスト条件画像合成問題に対する拡散モデルについて検討し、2つの異なるガイダンス戦略を比較した。
後者は、フォトリアリズムとキャプションの類似性の両方において、人間の評価者によって好まれており、しばしばフォトリアリスティックなサンプルを生成する。
我々のモデルは、画像のインペイントを行うように微調整することができ、強力なテキスト駆動画像編集を可能にします。
論文 参考訳(メタデータ) (2021-12-20T18:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。