論文の概要: DiffLoRA: Generating Personalized Low-Rank Adaptation Weights with Diffusion
- arxiv url: http://arxiv.org/abs/2408.06740v3
- Date: Fri, 15 Nov 2024 08:36:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:36:31.967704
- Title: DiffLoRA: Generating Personalized Low-Rank Adaptation Weights with Diffusion
- Title(参考訳): DiffLoRA: 拡散によるパーソナライズされた低ランク適応重量の生成
- Authors: Yujia Wu, Yiming Shi, Jiwei Wei, Chengwei Sun, Yang Yang, Heng Tao Shen,
- Abstract要約: DiffLoRAは、拡散モデルをハイパーネットワークとして活用し、パーソナライズされた低ランク適応重みを予測できる効率的な手法である。
これらのLoRA重みをオフザシェルのテキスト・ツー・イメージモデルに組み込むことで、推論中にゼロショットのパーソナライズが可能になる。
本稿では、DiffLoRAのトレーニングプロセスを容易にするために、新しいアイデンティティ指向のLoRA重み付けパイプラインを提案する。
- 参考スコア(独自算出の注目度): 43.55179971287028
- License:
- Abstract: Personalized text-to-image generation has gained significant attention for its capability to generate high-fidelity portraits of specific identities conditioned on user-defined prompts. Existing methods typically involve test-time fine-tuning or incorporating an additional pre-trained branch. However, these approaches struggle to simultaneously address efficiency, identity fidelity, and the preservation of the model's original generative capabilities. In this paper, we propose DiffLoRA, an efficient method that leverages the diffusion model as a hypernetwork to predict personalized Low-Rank Adaptation (LoRA) weights based on the reference images. By incorporating these LoRA weights into the off-the-shelf text-to-image model, DiffLoRA enables zero-shot personalization during inference, eliminating the need for post-processing optimization. Moreover, we introduce a novel identity-oriented LoRA weights construction pipeline to facilitate the training process of DiffLoRA. The dataset generated through this pipeline enables DiffLoRA to produce consistently high-quality LoRA weights. Notably, the distinctive properties of the diffusion model enhance the generation of superior weights by employing probabilistic modeling to capture intricate structural patterns and thoroughly explore the weight space. Comprehensive experimental results demonstrate that DiffLoRA outperforms existing personalization approaches across multiple benchmarks, achieving both time efficiency and maintaining identity fidelity throughout the personalization process.
- Abstract(参考訳): パーソナライズされたテキスト・ツー・イメージ生成は、ユーザ定義のプロンプトで条件付けられた特定のアイデンティティの高忠実なポートレートを生成する能力において、大きな注目を集めている。
既存の手法では、テストタイムの微調整や、追加のトレーニング済みブランチの導入が一般的である。
しかしながら、これらのアプローチは効率性、アイデンティティの忠実さ、モデルのオリジナルの生成能力の保存を同時に扱うのに苦労する。
本稿では,DiffLoRAを提案する。DiffLoRAは,拡散モデルをハイパーネットワークとして活用し,参照画像に基づいてパーソナライズされたLow-Rank Adaptation(LoRA)重みを予測する。
これらのLoRA重みをオフザシェルのテキスト・ツー・イメージモデルに組み込むことで、DiffLoRAは推論中にゼロショットのパーソナライズを可能にし、後処理の最適化を不要にする。
さらに、DiffLoRAのトレーニングプロセスを容易にするために、新しいアイデンティティ指向のLoRA重み付けパイプラインを導入する。
このパイプラインを通じて生成されたデータセットにより、DiffLoRAは一貫して高品質なLoRA重みを生成することができる。
特に拡散モデルの特色は、確率論的モデリングを用いて複雑な構造パターンを捕捉し、重量空間を徹底的に探索することによって、優れた重量の生成を促進する。
総合的な実験結果は、DiffLoRAが既存のパーソナライズアプローチを複数のベンチマークで上回り、パーソナライズプロセスを通して、時間効率とアイデンティティの忠実さの両方を達成していることを示している。
関連論文リスト
- LoRA vs Full Fine-tuning: An Illusion of Equivalence [76.11938177294178]
本研究では, 異なる微調整法が, スペクトル特性のレンズを用いてモデルの重み行列を解析することにより, 事前学習モデルを変化させる方法について検討した。
単一値分解が全く異なる構造を持つ全微調整およびLoRA収量行列が得られた。
イントルーダ次元がLoRAの微調整モデルになぜ現れるのか、なぜそれらが望ましくないのか、そしてどのようにしてその効果を最小化できるかを検討することで結論を下す。
論文 参考訳(メタデータ) (2024-10-28T17:14:01Z) - Exact Aggregation for Federated and Efficient Fine-Tuning of Foundation Models [5.1613368481802455]
Low-Rank Adaptation (LoRA) は基礎モデルの効率的な微調整技術として人気がある。
凍結重量行列に残留誤差項を追加するFederated Exact LoRA(FedEx-LoRA)を提案する。
提案手法は,LoRAの効率を保ちながら,計算と通信のオーバーヘッドを最小限に抑えた正確な更新を実現する。
論文 参考訳(メタデータ) (2024-10-12T08:22:44Z) - Learning on LoRAs: GL-Equivariant Processing of Low-Rank Weight Spaces for Large Finetuned Models [38.197552424549514]
低ランク適応(LoRA)は、大規模な基礎モデルの微調整に革命をもたらした。
LoRAは、これらの低ランクウェイトを入力として利用する機械学習技術を適用する機会を提供する。
本稿では,LoRA重みが機械学習モデルへの入力として機能するパラダイムであるLoRA(Learning on LoRAs)の可能性を検討する。
論文 参考訳(メタデータ) (2024-10-05T15:52:47Z) - AutoLoRA: AutoGuidance Meets Low-Rank Adaptation for Diffusion Models [0.9514837871243403]
低ランク適応(LoRA)は条件付き生成拡散モデルに適用できる微調整技術である。
本稿では,LoRAアプローチを微調整した拡散モデルのための新しいガイダンス手法であるAutoLoRAを紹介する。
論文 参考訳(メタデータ) (2024-10-04T21:57:11Z) - Towards Effective User Attribution for Latent Diffusion Models via Watermark-Informed Blending [54.26862913139299]
我々は、ウォーターマークインフォームドブレンディング(TEAWIB)による潜伏拡散モデルに対する効果的なユーザ属性に向けた新しいフレームワークを提案する。
TEAWIBは、ユーザ固有の透かしを生成モデルにシームレスに統合する、ユニークな準備可能な構成アプローチを取り入れている。
TEAWIBの有効性を検証し、知覚的品質と帰属精度で最先端の性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-09-17T07:52:09Z) - Enhancing Parameter Efficiency and Generalization in Large-Scale Models: A Regularized and Masked Low-Rank Adaptation Approach [10.980433187379868]
低ランク適応(LoRA)は、良好な微調整結果を維持しつつ、資源消費を減らすために開発された。
本稿では,LoRA法により近似された行列更新の本質的な次元について検討し,本質的な次元を増大させることによる性能上の利点を明らかにする。
論文 参考訳(メタデータ) (2024-07-16T15:26:31Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率の高いディープアンサンブル手法であるLoRA-Ensembleを紹介する。
全メンバー間で重みを共有できる1つの事前学習型自己注意ネットワークを利用することで、注意投影のために、メンバー固有の低ランク行列を訓練する。
提案手法は明示的なアンサンブルよりも優れたキャリブレーションを示し,様々な予測タスクやデータセットに対して類似あるいは良好な精度を実現する。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - DiffSCI: Zero-Shot Snapshot Compressive Imaging via Iterative Spectral
Diffusion Model [18.25548360119976]
マルチスペクトル画像(MSI)におけるスナップショット圧縮画像(SCI)再構成の精度向上を目指した。
DiffSCIと呼ばれる新しいゼロショット拡散モデルを提案する。
我々は,DiffSCIが自己監督的,ゼロショット的アプローチよりも顕著な性能向上を示すことを示すため,広範囲な試験を行った。
論文 参考訳(メタデータ) (2023-11-19T20:27:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。