論文の概要: DiffuseKronA: A Parameter Efficient Fine-tuning Method for Personalized
Diffusion Model
- arxiv url: http://arxiv.org/abs/2402.17412v1
- Date: Tue, 27 Feb 2024 11:05:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:47:39.774927
- Title: DiffuseKronA: A Parameter Efficient Fine-tuning Method for Personalized
Diffusion Model
- Title(参考訳): DiffuseKrona:パーソナライズド拡散モデルのためのパラメータ効率的なファインチューニング法
- Authors: Shyam Marjit, Harshit Singh, Nityanand Mathur, Sayak Paul, Chia-Mu Yu,
Pin-Yu Chen
- Abstract要約: textbftextitDiffuseKronAは、対象駆動型テキスト・トゥ・イメージ(T2I)生成モデルのための製品ベースの適応モジュールである。
LoRA-DreamBoothとDreamBoothをそれぞれ35%、99.947%削減する。
LoRA-DreamBoothに匹敵する結果で最大50%の削減が達成できる。
- 参考スコア(独自算出の注目度): 46.58122934173729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of subject-driven text-to-image (T2I) generative models, recent
developments like DreamBooth and BLIP-Diffusion have led to impressive results
yet encounter limitations due to their intensive fine-tuning demands and
substantial parameter requirements. While the low-rank adaptation (LoRA) module
within DreamBooth offers a reduction in trainable parameters, it introduces a
pronounced sensitivity to hyperparameters, leading to a compromise between
parameter efficiency and the quality of T2I personalized image synthesis.
Addressing these constraints, we introduce \textbf{\textit{DiffuseKronA}}, a
novel Kronecker product-based adaptation module that not only significantly
reduces the parameter count by 35\% and 99.947\% compared to LoRA-DreamBooth
and the original DreamBooth, respectively, but also enhances the quality of
image synthesis. Crucially, \textit{DiffuseKronA} mitigates the issue of
hyperparameter sensitivity, delivering consistent high-quality generations
across a wide range of hyperparameters, thereby diminishing the necessity for
extensive fine-tuning. Furthermore, a more controllable decomposition makes
\textit{DiffuseKronA} more interpretable and even can achieve up to a 50\%
reduction with results comparable to LoRA-Dreambooth. Evaluated against diverse
and complex input images and text prompts, \textit{DiffuseKronA} consistently
outperforms existing models, producing diverse images of higher quality with
improved fidelity and a more accurate color distribution of objects, all the
while upholding exceptional parameter efficiency, thus presenting a substantial
advancement in the field of T2I generative modeling. Our project page,
consisting of links to the code, and pre-trained checkpoints, is available at
\href{https://diffusekrona.github.io/}{https://diffusekrona.github.io/}.
- Abstract(参考訳): 近年のDreamBoothやBLIP-Diffusionのような対象駆動型テキスト・トゥ・イメージ(T2I)生成モデルでは、複雑な微調整要求とかなりのパラメータ要求により、限界に遭遇した。
DreamBooth内のローランク適応(LoRA)モジュールはトレーニング可能なパラメータの削減を提供するが、ハイパーパラメータに顕著な感度を導入し、パラメータ効率とT2Iパーソナライズされた画像合成の品質の妥協につながった。
これらの制約に対処し,lora-dreambooth および original dreambooth と比較してパラメータ数を35\%,99.947\%と大幅に減少させるだけでなく,画像合成のクオリティを高める新しいクロネッカー積に基づく適応モジュールである \textbf{\textit{diffusekrona}} を導入する。
重要なことに、 \textit{DiffuseKronA} はハイパーパラメータ感度の問題を緩和し、幅広いハイパーパラメータにわたって一貫した高品質な世代を提供する。
さらに、より制御可能な分解により、 \textit{diffusekrona} はより解釈しやすくなり、lora-dreambooth に匹敵する結果で最大 50\% 削減できる。
多様な複雑な入力画像やテキストプロンプトに対して評価された \textit{DiffuseKronA} は、既存のモデルよりも一貫して優れており、改良された忠実さとオブジェクトのより正確な色分布を持つ高品質の多様な画像を生成する。
コードへのリンクと事前トレーニングされたチェックポイントからなる私たちのプロジェクトページは、 \href{https://diffusekrona.github.io/}{https://diffusekrona.github.io/}で利用可能です。
関連論文リスト
- LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - PaRa: Personalizing Text-to-Image Diffusion via Parameter Rank Reduction [38.424899483761656]
PaRaはT2Iモデルパーソナライズのための効率的かつ効率的なランク削減手法である。
我々のデザインは、新しい概念へのT2Iモデルの使用は、小さな世代空間を意味するという事実に動機づけられている。
そこで,PaRaは単一/複数オブジェクト生成における既存のファインタニング手法の利点と,単一画像編集の利点を両立することを示す。
論文 参考訳(メタデータ) (2024-06-09T04:51:51Z) - ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - Advancing Parameter Efficiency in Fine-tuning via Representation Editing [41.81020951061438]
我々はRepresentation EDiting (RED)というニューラルモデルのための新しい微調整手法を提案する。
REDは、スケーリングとバイアス処理の適用を通じて、いくつかのレイヤで生成された表現を修正します。
注目すべきは、REDは完全なパラメータの微調整と他のPEFT手法に匹敵する、あるいは優れている結果を達成することである。
論文 参考訳(メタデータ) (2024-02-23T08:21:02Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Controlling Text-to-Image Diffusion by Orthogonal Finetuning [74.21549380288631]
そこで本研究では,テキストから画像への拡散モデルを下流タスクに適用するための原理的な微調整手法であるorthogonal Finetuning(OFT)を提案する。
既存の方法とは異なり、OFTは単位超球上の対のニューロン関係を特徴付ける超球面エネルギーを確実に保存することができる。
我々のOFTフレームワークは、生成品質と収束速度において既存の手法よりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-06-12T17:59:23Z) - SVDiff: Compact Parameter Space for Diffusion Fine-Tuning [19.978410014103435]
パーソナライズのための既存のテキスト・画像拡散モデルにおける制約に対処する新しいアプローチを提案する。
本手法は, 重み行列の特異値の微調整を伴い, コンパクトかつ効率的なパラメータ空間を導出する。
また、マルチオブジェクト画像生成の質を高めるためのカット・ミクス・Unmixデータ拡張手法と、簡単なテキストベースの画像編集フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:45:02Z) - Learning the Effect of Registration Hyperparameters with HyperMorph [7.313453912494172]
我々は,学習に基づく変形可能な画像登録において,効率的なハイパーパラメータチューニングを容易にするHyperMorphを紹介した。
本研究では,高速かつ高分解能なハイパーパラメータ探索を実現することで,従来の手法の非効率性を低減できることを示す。
論文 参考訳(メタデータ) (2022-03-30T21:30:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。