論文の概要: DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching
- arxiv url: http://arxiv.org/abs/2411.17786v1
- Date: Tue, 26 Nov 2024 15:03:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:28:43.756640
- Title: DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching
- Title(参考訳): DreamCache: フィーチャーキャッシングによるファインタニング不要の軽量画像生成
- Authors: Emanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli,
- Abstract要約: 私たちは、効率的で高品質なパーソナライズされた画像生成のためのスケーラブルなアプローチであるDreamCacheを紹介します。
DreamCacheは最先端の画像とテキストアライメントを実現し、桁違いに少ない余分なパラメータを使用する。
- 参考スコア(独自算出の注目度): 38.46235896192237
- License:
- Abstract: Personalized image generation requires text-to-image generative models that capture the core features of a reference subject to allow for controlled generation across different contexts. Existing methods face challenges due to complex training requirements, high inference costs, limited flexibility, or a combination of these issues. In this paper, we introduce DreamCache, a scalable approach for efficient and high-quality personalized image generation. By caching a small number of reference image features from a subset of layers and a single timestep of the pretrained diffusion denoiser, DreamCache enables dynamic modulation of the generated image features through lightweight, trained conditioning adapters. DreamCache achieves state-of-the-art image and text alignment, utilizing an order of magnitude fewer extra parameters, and is both more computationally effective and versatile than existing models.
- Abstract(参考訳): パーソナライズされた画像生成には、異なるコンテキスト間で制御された生成を可能にするために、参照対象の中核的な特徴をキャプチャするテキスト・ツー・イメージ生成モデルが必要である。
既存のメソッドは、複雑なトレーニング要件、高い推論コスト、柔軟性の制限、これらの問題の組み合わせによる課題に直面します。
本稿では,効率的かつ高品質なパーソナライズ画像生成のためのスケーラブルなアプローチであるDreamCacheを紹介する。
レイヤのサブセットから少数の参照イメージ機能をキャッシュし、事前訓練された拡散デノイザの単一タイムステップをキャッシュすることで、DreamCacheは軽量でトレーニングされたコンディショニングアダプタを通じて生成されたイメージ機能の動的変調を可能にする。
DreamCacheは最先端の画像とテキストのアライメントを実現し、桁違いに少ない余分なパラメータを利用でき、既存のモデルよりも計算効率が高く、汎用性が高い。
関連論文リスト
- Hollowed Net for On-Device Personalization of Text-to-Image Diffusion Models [51.3915762595891]
本稿では、デバイス上での主観的生成のための効率的なLoRAに基づくパーソナライズ手法を提案する。
提案手法はHollowed Netと呼ばれ,拡散U-Netのアーキテクチャを変更することにより,微調整時のメモリ効率を向上させる。
論文 参考訳(メタデータ) (2024-11-02T08:42:48Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Ada-adapter:Fast Few-shot Style Personlization of Diffusion Model with Pre-trained Image Encoder [57.574544285878794]
Ada-Adapterは拡散モデルの少数ショットスタイルのパーソナライズのための新しいフレームワークである。
提案手法は,単一の参照画像を用いたゼロショット方式の効率的な転送を可能にする。
フラットアートや3Dレンダリング,ロゴデザインなど,さまざまな芸術的スタイルに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-07-08T02:00:17Z) - MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。
本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T17:55:56Z) - Pixel-Aware Stable Diffusion for Realistic Image Super-resolution and Personalized Stylization [23.723573179119228]
本稿では,高機能なReal-ISRとパーソナライズされた画像スタイリングを実現するために,画素対応安定拡散(PASD)ネットワークを提案する。
画素単位の画像局所構造を知覚する拡散モデルを実現するために、画素対応クロスアテンションモジュールを導入する。
補正可能なノイズスケジュールを導入し、画像復元結果をさらに改善する。
論文 参考訳(メタデータ) (2023-08-28T10:15:57Z) - Conditional Generation from Unconditional Diffusion Models using
Denoiser Representations [94.04631421741986]
本稿では,学習したデノイザネットワークの内部表現を用いて,事前学習した非条件拡散モデルを新しい条件に適用することを提案する。
提案手法により生成した合成画像を用いたTiny ImageNetトレーニングセットの強化により,ResNetベースラインの分類精度が最大8%向上することを示す。
論文 参考訳(メタデータ) (2023-06-02T20:09:57Z) - FastComposer: Tuning-Free Multi-Subject Image Generation with Localized
Attention [37.58569261714206]
拡散モデルは、特にパーソナライズされた画像に対する被写体駆動生成において、テキスト・画像生成時に優れている。
FastComposerは、微調整なしで、効率的でパーソナライズされたマルチオブジェクトのテキスト・ツー・イメージ生成を可能にする。
論文 参考訳(メタデータ) (2023-05-17T17:59:55Z) - SVDiff: Compact Parameter Space for Diffusion Fine-Tuning [19.978410014103435]
パーソナライズのための既存のテキスト・画像拡散モデルにおける制約に対処する新しいアプローチを提案する。
本手法は, 重み行列の特異値の微調整を伴い, コンパクトかつ効率的なパラメータ空間を導出する。
また、マルチオブジェクト画像生成の質を高めるためのカット・ミクス・Unmixデータ拡張手法と、簡単なテキストベースの画像編集フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:45:02Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。