論文の概要: Orthogonal Adaptation for Modular Customization of Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.02432v2
- Date: Fri, 6 Sep 2024 03:00:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 20:53:23.473905
- Title: Orthogonal Adaptation for Modular Customization of Diffusion Models
- Title(参考訳): 拡散モデルのモジュラーカスタマイズのための直交適応
- Authors: Ryan Po, Guandao Yang, Kfir Aberman, Gordon Wetzstein,
- Abstract要約: 我々は、カスタマイズされたモデルを効率的にマージすることを目的として、Modular Customizationと呼ばれる新しい問題に対処する。
直交適応(Orthogonal Adaptation, Orthogonal Adaptation)は,微調整時に相互にアクセスできないカスタマイズモデルを支援する手法である。
提案手法は単純かつ汎用的であり,モデルアーキテクチャのほぼすべての最適化可能な重みに適用可能である。
- 参考スコア(独自算出の注目度): 39.62438974450659
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Customization techniques for text-to-image models have paved the way for a wide range of previously unattainable applications, enabling the generation of specific concepts across diverse contexts and styles. While existing methods facilitate high-fidelity customization for individual concepts or a limited, pre-defined set of them, they fall short of achieving scalability, where a single model can seamlessly render countless concepts. In this paper, we address a new problem called Modular Customization, with the goal of efficiently merging customized models that were fine-tuned independently for individual concepts. This allows the merged model to jointly synthesize concepts in one image without compromising fidelity or incurring any additional computational costs. To address this problem, we introduce Orthogonal Adaptation, a method designed to encourage the customized models, which do not have access to each other during fine-tuning, to have orthogonal residual weights. This ensures that during inference time, the customized models can be summed with minimal interference. Our proposed method is both simple and versatile, applicable to nearly all optimizable weights in the model architecture. Through an extensive set of quantitative and qualitative evaluations, our method consistently outperforms relevant baselines in terms of efficiency and identity preservation, demonstrating a significant leap toward scalable customization of diffusion models.
- Abstract(参考訳): テキスト・ツー・イメージ・モデルのカスタマイズ技術は、様々なコンテキストやスタイルにまたがる特定の概念の生成を可能にする、これまで達成できなかった幅広いアプリケーションへの道を開いた。
既存の手法は、個々の概念や、限定された事前定義されたセットの高忠実度なカスタマイズを促進するが、単一のモデルが無数の概念をシームレスにレンダリングできるようなスケーラビリティを達成するには至らない。
本稿では,個別の概念に独立して微調整されたカスタマイズモデルを効率的にマージすることを目的として,モジュールカスタマイズと呼ばれる新しい問題に対処する。
これにより、マージされたモデルは、忠実さを損なうことなく、余分な計算コストを発生させることなく、1つのイメージで概念を共同で合成することができる。
この問題に対処するために、直交残量を持つように、微調整中に相互にアクセスできないカスタマイズされたモデルを奨励する手法である直交適応を導入する。
これにより、推論時間中に、カスタマイズされたモデルを最小限の干渉でまとめることができる。
提案手法は単純かつ汎用的であり,モデルアーキテクチャのほぼすべての最適化可能な重みに適用可能である。
定量的および定性的な評価の広範なセットを通じて,本手法は効率性やアイデンティティの保存において,関連するベースラインを常に上回り,拡張モデルのスケーラブルなカスタマイズに向けた大きな飛躍を示す。
関連論文リスト
- Large Language Models to Diffusion Finetuning [20.251827725749607]
我々は、下流タスク間の性能向上に直接変換することで、単調に精度を向上することを示す。
本手法は,クロスエントロピー損失で事前学習した基礎モデルに適用可能である。
論文 参考訳(メタデータ) (2025-01-27T04:59:29Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - Training-free Heterogeneous Model Merging [40.681362819808136]
異種モデル用に設計された革新的なモデルマージフレームワークを提案する。
構造的に不均一なモデルのマージは、均質なマージに匹敵する性能レベルを達成することができることを示す。
私たちのコードはhttps://github.com/zju-vipa/training_free_heterogeneous_model_mergingで公開されています。
論文 参考訳(メタデータ) (2024-12-29T04:49:11Z) - LoRACLR: Contrastive Adaptation for Customization of Diffusion Models [62.70911549650579]
LoRACLRは、複数のLoRAモデルを単一の統一モデルにマージする、マルチコンセプト画像生成の新しいアプローチである。
LoRACLRは、これらのモデルの重み空間を整列し、マージするために対照的な目的を使い、干渉を最小限にしながら互換性を確保する。
本結果は,複数の概念を正確にマージし,パーソナライズされた画像生成能力を向上する上で,LoRACLRの有効性を強調した。
論文 参考訳(メタデータ) (2024-12-12T18:59:55Z) - Pareto Merging: Multi-Objective Optimization for Preference-Aware Model Merging [11.186194228460273]
本稿では,各ベースモデルのタスク上でのマージモデルの性能を目的として扱う,嗜好意識のモデルマージ問題を提案する。
提案したモデルマージにより,多様なトレードオフモデルが生成され,最先端のマージベースラインと比較して高いテスト精度が得られることを示す。
論文 参考訳(メタデータ) (2024-08-22T03:41:14Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Direct Consistency Optimization for Robust Customization of Text-to-Image Diffusion Models [67.68871360210208]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,微調整モデルと事前学習モデルとの偏差を制御し,直接整合性最適化(Direct Consistency Optimization)と呼ばれる新たな微調整対象を提案する。
提案手法は, 通常の微調整モデルとのマージに最適化したモデルよりも, 高速な忠実度と主観的忠実度が得られることを示す。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Multi-Concept Customization of Text-to-Image Diffusion [51.8642043743222]
既存のテキスト・ツー・イメージ・モデルの効率的な拡張法であるCustom Diffusionを提案する。
テキスト・ツー・イメージ・コンディショニング機構におけるパラメータの最適化は,新しい概念を表現するのに十分強力であることがわかった。
本モデルは,複数の新しい概念のバリエーションを生成し,既存の概念を新しい設定でシームレスに構成する。
論文 参考訳(メタデータ) (2022-12-08T18:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。