Fugu-MT 論文翻訳(概要): DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations

論文の概要: DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations

arxiv url: http://arxiv.org/abs/2403.06951v1
Date: Mon, 11 Mar 2024 17:35:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-12 17:43:15.310915
Title: DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations
Title（参考訳）: deadiff: 不連続表現を持つ効率的なスタイリゼーション拡散モデル
Authors: Tianhao Qi, Shancheng Fang, Yanze Wu, Hongtao Xie, Jiawei Liu, Lang Chen, Qian He, Yongdong Zhang
Abstract要約: 現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。この問題に対処するために、以下の2つの戦略を用いてtextitDEADiffを導入します。そこで,DADiff はテキスト・ツー・イメージ・モデルに固有のテキスト制御性と,参照画像とスタイルの類似性との間に最適な視覚的スタイリング結果と最適なバランスを得られることを示す。
参考スコア（独自算出の注目度）: 64.43387739794531
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The diffusion-based text-to-image model harbors immense potential in transferring reference style. However, current encoder-based approaches significantly impair the text controllability of text-to-image models while transferring styles. In this paper, we introduce \textit{DEADiff} to address this issue using the following two strategies: 1) a mechanism to decouple the style and semantics of reference images. The decoupled feature representations are first extracted by Q-Formers which are instructed by different text descriptions. Then they are injected into mutually exclusive subsets of cross-attention layers for better disentanglement. 2) A non-reconstructive learning method. The Q-Formers are trained using paired images rather than the identical target, in which the reference image and the ground-truth image are with the same style or semantics. We show that DEADiff attains the best visual stylization results and optimal balance between the text controllability inherent in the text-to-image model and style similarity to the reference image, as demonstrated both quantitatively and qualitatively. Our project page is~\href{https://tianhao-qi.github.io/DEADiff/}{https://tianhao-qi.github.io/DEADiff/}.
Abstract（参考訳）: 拡散ベースのテキストから画像へのモデルは、参照スタイルを転送する大きな可能性を秘めている。しかし、現在のエンコーダベースのアプローチは、スタイルを転送しながらテキストから画像へのモデルのテキスト制御性を著しく損なう。本稿では,以下の2つの戦略を用いてこの問題に対処するために, \textit{deadiff} を導入する。 1)参照画像のスタイルと意味を分離するメカニズム。分離された特徴表現は、まず異なるテキスト記述によって指示されるqフォーマによって抽出される。そして、それらを相互に排他的な相互アテンション層のサブセットに注入して、より良い絡み合うようにします。 2)非再構成学習法。 q-formersは、同一のターゲットではなくペア画像を使用して訓練され、参照画像と接地画像は同じスタイルまたは意味を持つ。そこで本研究では,DADiffがテキスト・画像モデルに固有のテキスト制御性と,参照画像に類似するスタイルとの最適バランスを,定量的かつ定性的に示すことができることを示す。私たちのプロジェクトページは~\href{https://tianhao-qi.github.io/DEADiff/}{https://tianhao-qi.github.io/DEADiff/}です。

関連論文リスト

Aligning Text to Image in Diffusion Models is Easier Than You Think [47.623236425067326]
ソフトテキストトークンを用いたSoftREPAと呼ばれる軽量なコントラスト微調整方式を導入する。本手法は,テキストと画像表現間の相互情報を明示的に増大させ,意味的一貫性を向上させる。
論文参考訳（メタデータ） (2025-03-11T10:14:22Z)
Bridging the Gap: Aligning Text-to-Image Diffusion Models with Specific Feedback [5.415802995586328]
フィードバックからの学習は、テキスト間拡散モデルにおけるテキストプロンプトと画像の整合性を高めることが示されている。本稿では,3段階を含む特定の報酬目標を持つ効率的な微動法を提案する。このベンチマークによる実験結果から,本モデルはアライメントと忠実度の両方において,他のSOTA法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-11-28T09:56:28Z)
Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文参考訳（メタデータ） (2024-04-21T20:26:46Z)
Direct Consistency Optimization for Compositional Text-to-Image Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文参考訳（メタデータ） (2024-02-19T09:52:41Z)
Reinforcement Learning from Diffusion Feedback: Q* for Image Search [2.5835347022640254]
モデル非依存学習を用いた画像生成のための2つのモデルを提案する。 RLDFは、事前保存された報酬関数誘導による視覚模倣のための特異なアプローチである。クラス一貫性と強力な視覚的多様性を示す様々な領域にまたがる高品質な画像を生成する。
論文参考訳（メタデータ） (2023-11-27T09:20:12Z)
Self-supervised Cross-view Representation Reconstruction for Change Captioning [113.08380679787247]
変更キャプションは、類似したイメージのペアの違いを記述することを目的としている。その主な課題は、視点変化によって引き起こされる擬似変化の下で、安定した差分表現を学習する方法である。自己教師型クロスビュー表現再構成ネットワークを提案する。
論文参考訳（メタデータ） (2023-09-28T09:28:50Z)
Discriminative Class Tokens for Text-to-Image Diffusion Models [102.88033622546251]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。 i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文参考訳（メタデータ） (2023-03-30T05:25:20Z)
DSI2I: Dense Style for Unpaired Image-to-Image Translation [70.93865212275412]
Inpaired exemplar-based image-to-image (UEI2I) 翻訳は、ソース画像をターゲット画像領域に変換する。我々は,スタイルを高密度な特徴写像として表現し,外部意味情報を必要とせず,よりきめ細かなソース画像の転送を可能にすることを提案する。以上の結果から,本手法による翻訳は,より多様であり,資料内容の保存性が向上し,最先端の手法と比較すると,先例に近づいたことが示唆された。
論文参考訳（メタデータ） (2022-12-26T18:45:25Z)
eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。 eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文参考訳（メタデータ） (2022-11-02T17:43:04Z)
GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models [16.786221846896108]
テキスト条件画像合成問題に対する拡散モデルについて検討し、2つの異なるガイダンス戦略を比較した。後者は、フォトリアリズムとキャプションの類似性の両方において、人間の評価者によって好まれており、しばしばフォトリアリスティックなサンプルを生成する。我々のモデルは、画像のインペイントを行うように微調整することができ、強力なテキスト駆動画像編集を可能にします。
論文参考訳（メタデータ） (2021-12-20T18:42:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。