Fugu-MT 論文翻訳(概要): DiffuseKronA: A Parameter Efficient Fine-tuning Method for Personalized Diffusion Models

論文の概要: DiffuseKronA: A Parameter Efficient Fine-tuning Method for Personalized Diffusion Models

arxiv url: http://arxiv.org/abs/2402.17412v2
Date: Wed, 28 Feb 2024 09:49:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 11:48:11.124872
Title: DiffuseKronA: A Parameter Efficient Fine-tuning Method for Personalized Diffusion Models
Title（参考訳）: DiffuseKrona: 個人化拡散モデルのためのパラメータ効率の良い微調整法
Authors: Shyam Marjit, Harshit Singh, Nityanand Mathur, Sayak Paul, Chia-Mu Yu, Pin-Yu Chen
Abstract要約: textbftextitDiffuseKronAは、対象駆動型テキスト・トゥ・イメージ(T2I)生成モデルのための製品ベースの適応モジュールである。 LoRA-DreamBoothとDreamBoothをそれぞれ35%、99.947%削減する。 LoRA-DreamBoothに匹敵する結果で最大50%の削減が達成できる。
参考スコア（独自算出の注目度）: 46.58122934173729
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the realm of subject-driven text-to-image (T2I) generative models, recent developments like DreamBooth and BLIP-Diffusion have led to impressive results yet encounter limitations due to their intensive fine-tuning demands and substantial parameter requirements. While the low-rank adaptation (LoRA) module within DreamBooth offers a reduction in trainable parameters, it introduces a pronounced sensitivity to hyperparameters, leading to a compromise between parameter efficiency and the quality of T2I personalized image synthesis. Addressing these constraints, we introduce \textbf{\textit{DiffuseKronA}}, a novel Kronecker product-based adaptation module that not only significantly reduces the parameter count by 35\% and 99.947\% compared to LoRA-DreamBooth and the original DreamBooth, respectively, but also enhances the quality of image synthesis. Crucially, \textit{DiffuseKronA} mitigates the issue of hyperparameter sensitivity, delivering consistent high-quality generations across a wide range of hyperparameters, thereby diminishing the necessity for extensive fine-tuning. Furthermore, a more controllable decomposition makes \textit{DiffuseKronA} more interpretable and even can achieve up to a 50\% reduction with results comparable to LoRA-Dreambooth. Evaluated against diverse and complex input images and text prompts, \textit{DiffuseKronA} consistently outperforms existing models, producing diverse images of higher quality with improved fidelity and a more accurate color distribution of objects, all the while upholding exceptional parameter efficiency, thus presenting a substantial advancement in the field of T2I generative modeling. Our project page, consisting of links to the code, and pre-trained checkpoints, is available at https://diffusekrona.github.io/.
Abstract（参考訳）: 近年のDreamBoothやBLIP-Diffusionのような対象駆動型テキスト・トゥ・イメージ(T2I)生成モデルでは、複雑な微調整要求とかなりのパラメータ要求により、限界に遭遇した。 DreamBooth内のローランク適応(LoRA)モジュールはトレーニング可能なパラメータの削減を提供するが、ハイパーパラメータに顕著な感度を導入し、パラメータ効率とT2Iパーソナライズされた画像合成の品質の妥協につながった。これらの制約に対処し,lora-dreambooth および original dreambooth と比較してパラメータ数を35\%,99.947\%と大幅に減少させるだけでなく,画像合成のクオリティを高める新しいクロネッカー積に基づく適応モジュールである \textbf{\textit{diffusekrona}} を導入する。重要なことに、 \textit{DiffuseKronA} はハイパーパラメータ感度の問題を緩和し、幅広いハイパーパラメータにわたって一貫した高品質な世代を提供する。さらに、より制御可能な分解により、 \textit{diffusekrona} はより解釈しやすくなり、lora-dreambooth に匹敵する結果で最大 50\% 削減できる。多様な複雑な入力画像やテキストプロンプトに対して評価された \textit{DiffuseKronA} は、既存のモデルよりも一貫して優れており、改良された忠実さとオブジェクトのより正確な色分布を持つ高品質の多様な画像を生成する。私たちのプロジェクトページは、コードへのリンクと事前訓練されたチェックポイントで構成されています。

関連論文リスト

High-Rank Structured Modulation for Parameter-Efficient Fine-Tuning [57.85676271833619]
低ランク適応 (LoRA) は、全パラメータの微調整をシミュレートするために低ランク更新法を用いる。 textbfStructured textbfMOdulation textbfAdapterは、より高いランクを維持しながらトレーニング可能なパラメータを少なくする。
論文参考訳（メタデータ） (2026-01-12T13:06:17Z)
Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。 MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2025-03-27T00:59:14Z)
LoR2C : Low-Rank Residual Connection Adaptation for Parameter-Efficient Fine-Tuning [6.5384187503681375]
本稿では,LoR2Cと呼ばれるパラメータ効率の高いファインチューニング手法を提案する。 LoR2Cはモデル層内の低ランク行列との残差接続を導入している。複数の自然言語理解および自然言語生成タスクの実験結果は、LoR2Cとその最適化された変種がパラメータのオーバーヘッドを著しく減少させることを示す。
論文参考訳（メタデータ） (2025-03-01T17:42:57Z)
Rethinking Model Redundancy for Low-light Image Enhancement [21.864075752556452]
低照度画像強調(LLIE)は、照明の改善、ノイズ低減、低照度画像の画質向上を目的とした、計算写真の基本的な課題である。最近の進歩は、主に複雑なニューラルネットワークモデルのカスタマイズに焦点が当てられているが、これらのモデルには大きな冗長性があり、さらなる性能改善が制限されている。この再考に触発されて,LLIE性能を改善しながらモデル冗長性を緩和する2つの革新的な手法を提案する。
論文参考訳（メタデータ） (2024-12-21T03:17:28Z)
LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文参考訳（メタデータ） (2024-10-05T06:59:50Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
PaRa: Personalizing Text-to-Image Diffusion via Parameter Rank Reduction [38.424899483761656]
PaRaはT2Iモデルパーソナライズのための効率的かつ効率的なランク削減手法である。我々のデザインは、新しい概念へのT2Iモデルの使用は、小さな世代空間を意味するという事実に動機づけられている。そこで,PaRaは単一/複数オブジェクト生成における既存のファインタニング手法の利点と,単一画像編集の利点を両立することを示す。
論文参考訳（メタデータ） (2024-06-09T04:51:51Z)
ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文参考訳（メタデータ） (2024-05-30T17:26:02Z)
Advancing Parameter Efficiency in Fine-tuning via Representation Editing [41.81020951061438]
我々はRepresentation EDiting (RED)というニューラルモデルのための新しい微調整手法を提案する。 REDは、スケーリングとバイアス処理の適用を通じて、いくつかのレイヤで生成された表現を修正します。注目すべきは、REDは完全なパラメータの微調整と他のPEFT手法に匹敵する、あるいは優れている結果を達成することである。
論文参考訳（メタデータ） (2024-02-23T08:21:02Z)
E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2023-07-25T19:03:21Z)
Controlling Text-to-Image Diffusion by Orthogonal Finetuning [74.21549380288631]
そこで本研究では,テキストから画像への拡散モデルを下流タスクに適用するための原理的な微調整手法であるorthogonal Finetuning(OFT)を提案する。既存の方法とは異なり、OFTは単位超球上の対のニューロン関係を特徴付ける超球面エネルギーを確実に保存することができる。我々のOFTフレームワークは、生成品質と収束速度において既存の手法よりも優れていることを実証的に示す。
論文参考訳（メタデータ） (2023-06-12T17:59:23Z)
SVDiff: Compact Parameter Space for Diffusion Fine-Tuning [19.978410014103435]
パーソナライズのための既存のテキスト・画像拡散モデルにおける制約に対処する新しいアプローチを提案する。本手法は, 重み行列の特異値の微調整を伴い, コンパクトかつ効率的なパラメータ空間を導出する。また、マルチオブジェクト画像生成の質を高めるためのカット・ミクス・Unmixデータ拡張手法と、簡単なテキストベースの画像編集フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-20T17:45:02Z)
Learning the Effect of Registration Hyperparameters with HyperMorph [7.313453912494172]
我々は,学習に基づく変形可能な画像登録において,効率的なハイパーパラメータチューニングを容易にするHyperMorphを紹介した。本研究では,高速かつ高分解能なハイパーパラメータ探索を実現することで,従来の手法の非効率性を低減できることを示す。
論文参考訳（メタデータ） (2022-03-30T21:30:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。