論文の概要: Orthogonal Adaptation for Modular Customization of Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.02432v1
- Date: Tue, 5 Dec 2023 02:17:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 17:00:52.521461
- Title: Orthogonal Adaptation for Modular Customization of Diffusion Models
- Title(参考訳): 拡散モデルのモジュラーカスタマイズのための直交適応
- Authors: Ryan Po, Guandao Yang, Kfir Aberman, Gordon Wetzstein
- Abstract要約: 我々は、カスタマイズされたモデルを効率的にマージすることを目的として、Modular Customizationと呼ばれる新しい問題に対処する。
直交適応(Orthogonal Adaptation, Orthogonal Adaptation)は,微調整時に相互にアクセスできないカスタマイズモデルを支援する手法である。
提案手法は単純かつ汎用的であり,モデルアーキテクチャのほぼすべての最適化可能な重みに適用可能である。
- 参考スコア(独自算出の注目度): 42.51086622161094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Customization techniques for text-to-image models have paved the way for a
wide range of previously unattainable applications, enabling the generation of
specific concepts across diverse contexts and styles. While existing methods
facilitate high-fidelity customization for individual concepts or a limited,
pre-defined set of them, they fall short of achieving scalability, where a
single model can seamlessly render countless concepts. In this paper, we
address a new problem called Modular Customization, with the goal of
efficiently merging customized models that were fine-tuned independently for
individual concepts. This allows the merged model to jointly synthesize
concepts in one image without compromising fidelity or incurring any additional
computational costs.
To address this problem, we introduce Orthogonal Adaptation, a method
designed to encourage the customized models, which do not have access to each
other during fine-tuning, to have orthogonal residual weights. This ensures
that during inference time, the customized models can be summed with minimal
interference.
Our proposed method is both simple and versatile, applicable to nearly all
optimizable weights in the model architecture. Through an extensive set of
quantitative and qualitative evaluations, our method consistently outperforms
relevant baselines in terms of efficiency and identity preservation,
demonstrating a significant leap toward scalable customization of diffusion
models.
- Abstract(参考訳): テキストから画像へのモデルのカスタマイズ技術は、これまで達成できなかった幅広いアプリケーションへの道を開き、さまざまなコンテキストやスタイルにまたがる特定の概念の生成を可能にした。
既存の手法では、個々の概念に対する忠実度の高いカスタマイズや、限定された事前定義セットが容易であるが、単一のモデルが無数の概念をシームレスにレンダリングできるスケーラビリティの実現には至っていない。
本稿では,個々の概念に対して独立して微調整されたカスタマイズモデルを効率的に統合することを目的として,モジュールカスタマイズと呼ばれる新しい問題に対処する。
これにより、マージモデルは、忠実さを損なうことなく、あるいは追加の計算コストを伴わずに、1つのイメージで概念を共同で合成することができる。
そこで本研究では, 微調整時に相互にアクセスできないカスタマイズモデルに対して, 直交残留重みを持たせるように工夫した直交適応法を提案する。
これにより、推論時間中に、カスタマイズされたモデルを最小限の干渉でまとめることができる。
提案手法は単純かつ汎用的であり,モデルアーキテクチャのほぼすべての最適化可能な重みに適用可能である。
定量的・質的評価により,提案手法は,効率とアイデンティティの保存の観点から,関連するベースラインを一貫して上回っており,拡散モデルのスケーラブルなカスタマイズに向けた大きな飛躍を示している。
関連論文リスト
- Large Language Models to Diffusion Finetuning [20.251827725749607]
我々は、下流タスク間の性能向上に直接変換することで、単調に精度を向上することを示す。
本手法は,クロスエントロピー損失で事前学習した基礎モデルに適用可能である。
論文 参考訳(メタデータ) (2025-01-27T04:59:29Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - Training-free Heterogeneous Model Merging [40.681362819808136]
異種モデル用に設計された革新的なモデルマージフレームワークを提案する。
構造的に不均一なモデルのマージは、均質なマージに匹敵する性能レベルを達成することができることを示す。
私たちのコードはhttps://github.com/zju-vipa/training_free_heterogeneous_model_mergingで公開されています。
論文 参考訳(メタデータ) (2024-12-29T04:49:11Z) - LoRACLR: Contrastive Adaptation for Customization of Diffusion Models [62.70911549650579]
LoRACLRは、複数のLoRAモデルを単一の統一モデルにマージする、マルチコンセプト画像生成の新しいアプローチである。
LoRACLRは、これらのモデルの重み空間を整列し、マージするために対照的な目的を使い、干渉を最小限にしながら互換性を確保する。
本結果は,複数の概念を正確にマージし,パーソナライズされた画像生成能力を向上する上で,LoRACLRの有効性を強調した。
論文 参考訳(メタデータ) (2024-12-12T18:59:55Z) - Pareto Merging: Multi-Objective Optimization for Preference-Aware Model Merging [11.186194228460273]
本稿では,各ベースモデルのタスク上でのマージモデルの性能を目的として扱う,嗜好意識のモデルマージ問題を提案する。
提案したモデルマージにより,多様なトレードオフモデルが生成され,最先端のマージベースラインと比較して高いテスト精度が得られることを示す。
論文 参考訳(メタデータ) (2024-08-22T03:41:14Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Direct Consistency Optimization for Robust Customization of Text-to-Image Diffusion Models [67.68871360210208]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,微調整モデルと事前学習モデルとの偏差を制御し,直接整合性最適化(Direct Consistency Optimization)と呼ばれる新たな微調整対象を提案する。
提案手法は, 通常の微調整モデルとのマージに最適化したモデルよりも, 高速な忠実度と主観的忠実度が得られることを示す。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Multi-Concept Customization of Text-to-Image Diffusion [51.8642043743222]
既存のテキスト・ツー・イメージ・モデルの効率的な拡張法であるCustom Diffusionを提案する。
テキスト・ツー・イメージ・コンディショニング機構におけるパラメータの最適化は,新しい概念を表現するのに十分強力であることがわかった。
本モデルは,複数の新しい概念のバリエーションを生成し,既存の概念を新しい設定でシームレスに構成する。
論文 参考訳(メタデータ) (2022-12-08T18:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。