論文の概要: Personalized Residuals for Concept-Driven Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2405.12978v1
- Date: Tue, 21 May 2024 17:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 12:30:44.637078
- Title: Personalized Residuals for Concept-Driven Text-to-Image Generation
- Title(参考訳): 概念駆動型テキスト・画像生成のためのパーソナライズされた残像
- Authors: Cusuh Ham, Matthew Fisher, James Hays, Nicholas Kolkin, Yuchen Liu, Richard Zhang, Tobias Hinz,
- Abstract要約: テキストと画像の拡散モデルを用いた効率的な概念駆動型生成のためのパーソナライズされた残差と局所的な注意誘導サンプリングを提案する。
正規化画像を用いることなく,1つのGPU上で概念のアイデンティティを3分で効果的にキャプチャできることを,パーソナライズされた残差が示す。
- 参考スコア(独自算出の注目度): 29.052642845759372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present personalized residuals and localized attention-guided sampling for efficient concept-driven generation using text-to-image diffusion models. Our method first represents concepts by freezing the weights of a pretrained text-conditioned diffusion model and learning low-rank residuals for a small subset of the model's layers. The residual-based approach then directly enables application of our proposed sampling technique, which applies the learned residuals only in areas where the concept is localized via cross-attention and applies the original diffusion weights in all other regions. Localized sampling therefore combines the learned identity of the concept with the existing generative prior of the underlying diffusion model. We show that personalized residuals effectively capture the identity of a concept in ~3 minutes on a single GPU without the use of regularization images and with fewer parameters than previous models, and localized sampling allows using the original model as strong prior for large parts of the image.
- Abstract(参考訳): テキストと画像の拡散モデルを用いた効率的な概念駆動型生成のためのパーソナライズされた残差と局所的な注意誘導サンプリングを提案する。
提案手法は,事前学習したテキスト条件拡散モデルの重みを凍結し,モデルの少数の部分集合に対する低ランク残差を学習することによって,まず概念を表現する。
この手法は, クロスアテンションによって局所化される領域のみに学習された残差を適用し, 元の拡散重みを他のすべての領域に適用する。
したがって、局所サンプリングは、この概念の学習された同一性と、基礎となる拡散モデルの既存の生成モデルとを結合させる。
正規化画像を用いることなく,従来のモデルよりも少ないパラメータで,1つのGPU上で約3分で概念の同一性を効果的に捉えることができることを示す。
関連論文リスト
- FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。
本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文 参考訳(メタデータ) (2024-07-06T03:35:43Z) - Membership Inference on Text-to-Image Diffusion Models via Conditional Likelihood Discrepancy [36.156856772794065]
本稿では,テキスト・画像拡散モデルにおける条件オーバーフィッティング現象を示し,これらのモデルが与えられた画像の条件分布に過度に適合する傾向があることを示す。
我々は,条件的類似性(CLiD)の分析指標を導出し,会員推定を行う。
実験結果から,本手法は様々なデータ分布やスケールにおいて,従来手法よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-05-23T17:09:51Z) - Lossy Image Compression with Foundation Diffusion Models [10.407650300093923]
本研究は,拡散を用いた量子化誤差の除去をデノナイジングタスクとして定式化し,送信された遅延画像の損失情報を復元する。
このアプローチによって、完全な拡散生成プロセスの10%未満の実行が可能になり、バックボーンにアーキテクチャ的な変更は不要になります。
論文 参考訳(メタデータ) (2024-04-12T16:23:42Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - Discovery and Expansion of New Domains within Diffusion Models [41.25905891327446]
拡散モデルの一般化特性を数発のセットアップで検討する。
ドメイン外のターゲットデータを合成するための新しいチューニング不要パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T16:07:31Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - A Variational Perspective on Solving Inverse Problems with Diffusion
Models [101.831766524264]
逆タスクは、データ上の後続分布を推測するものとして定式化することができる。
しかし、拡散過程の非線形的かつ反復的な性質が後部を引き付けるため、拡散モデルではこれは困難である。
そこで我々は,真の後続分布を近似する設計手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T23:00:47Z) - Ablating Concepts in Text-to-Image Diffusion Models [57.9371041022838]
大規模テキスト・画像拡散モデルでは、強力な構成能力を持つ高忠実度画像を生成することができる。
これらのモデルは典型的には膨大な量のインターネットデータに基づいて訓練されており、しばしば著作権のある資料、ライセンスされた画像、個人写真を含んでいる。
本稿では,事前訓練されたモデルにおいて,目標概念の生成を防止し,効率的に概念を宣言する手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T17:59:42Z) - ADIR: Adaptive Diffusion for Image Reconstruction [46.838084286784195]
本研究では,拡散モデルによる事前学習を利用した条件付きサンプリング手法を提案する。
次に、事前学習した拡散分極ネットワークを入力に適応させる新しいアプローチと組み合わせる。
画像再構成手法の適応拡散は,超高解像度,デブロアリング,テキストベースの編集タスクにおいて,大幅な改善が達成されていることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:39:58Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。