論文の概要: Orthogonal Adaptation for Modular Customization of Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.02432v1
- Date: Tue, 5 Dec 2023 02:17:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 17:00:52.521461
- Title: Orthogonal Adaptation for Modular Customization of Diffusion Models
- Title(参考訳): 拡散モデルのモジュラーカスタマイズのための直交適応
- Authors: Ryan Po, Guandao Yang, Kfir Aberman, Gordon Wetzstein
- Abstract要約: 我々は、カスタマイズされたモデルを効率的にマージすることを目的として、Modular Customizationと呼ばれる新しい問題に対処する。
直交適応(Orthogonal Adaptation, Orthogonal Adaptation)は,微調整時に相互にアクセスできないカスタマイズモデルを支援する手法である。
提案手法は単純かつ汎用的であり,モデルアーキテクチャのほぼすべての最適化可能な重みに適用可能である。
- 参考スコア(独自算出の注目度): 42.51086622161094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Customization techniques for text-to-image models have paved the way for a
wide range of previously unattainable applications, enabling the generation of
specific concepts across diverse contexts and styles. While existing methods
facilitate high-fidelity customization for individual concepts or a limited,
pre-defined set of them, they fall short of achieving scalability, where a
single model can seamlessly render countless concepts. In this paper, we
address a new problem called Modular Customization, with the goal of
efficiently merging customized models that were fine-tuned independently for
individual concepts. This allows the merged model to jointly synthesize
concepts in one image without compromising fidelity or incurring any additional
computational costs.
To address this problem, we introduce Orthogonal Adaptation, a method
designed to encourage the customized models, which do not have access to each
other during fine-tuning, to have orthogonal residual weights. This ensures
that during inference time, the customized models can be summed with minimal
interference.
Our proposed method is both simple and versatile, applicable to nearly all
optimizable weights in the model architecture. Through an extensive set of
quantitative and qualitative evaluations, our method consistently outperforms
relevant baselines in terms of efficiency and identity preservation,
demonstrating a significant leap toward scalable customization of diffusion
models.
- Abstract(参考訳): テキストから画像へのモデルのカスタマイズ技術は、これまで達成できなかった幅広いアプリケーションへの道を開き、さまざまなコンテキストやスタイルにまたがる特定の概念の生成を可能にした。
既存の手法では、個々の概念に対する忠実度の高いカスタマイズや、限定された事前定義セットが容易であるが、単一のモデルが無数の概念をシームレスにレンダリングできるスケーラビリティの実現には至っていない。
本稿では,個々の概念に対して独立して微調整されたカスタマイズモデルを効率的に統合することを目的として,モジュールカスタマイズと呼ばれる新しい問題に対処する。
これにより、マージモデルは、忠実さを損なうことなく、あるいは追加の計算コストを伴わずに、1つのイメージで概念を共同で合成することができる。
そこで本研究では, 微調整時に相互にアクセスできないカスタマイズモデルに対して, 直交残留重みを持たせるように工夫した直交適応法を提案する。
これにより、推論時間中に、カスタマイズされたモデルを最小限の干渉でまとめることができる。
提案手法は単純かつ汎用的であり,モデルアーキテクチャのほぼすべての最適化可能な重みに適用可能である。
定量的・質的評価により,提案手法は,効率とアイデンティティの保存の観点から,関連するベースラインを一貫して上回っており,拡散モデルのスケーラブルなカスタマイズに向けた大きな飛躍を示している。
関連論文リスト
- You Only Merge Once: Learning the Pareto Set of Preference-Aware Model Merging [11.186194228460273]
本稿では,各ベースモデルのタスク上でのマージモデルの性能を目的として扱う,嗜好意識のモデルマージを提案する。
1つのマージプロセスのみにおいて、提案したパラメータ効率構造は、マージされたモデルの集合全体を生成することができる。
提案手法により, 多様なトレードオフモデルを得ることができ, ベースラインの整合性に優れることを示す。
論文 参考訳(メタデータ) (2024-08-22T03:41:14Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Revisiting Implicit Models: Sparsity Trade-offs Capability in
Weight-tied Model for Vision Tasks [4.872984658007499]
ディープ平衡モデル(Deep Equilibrium Models, DEQ)のような暗黙のモデルは、無限層のモデルを訓練する能力によって、コミュニティにおいて大きな注目を集めている。
暗黙のモデルの行を再検討し、それらを元の重み付けモデルに遡る。
驚くべきことに、重み付けモデルの方がDECの変種と比較して、より効率的で、安定であり、視覚タスク上でも効率的である。
論文 参考訳(メタデータ) (2023-07-16T11:45:35Z) - Fast Adaptation with Bradley-Terry Preference Models in Text-To-Image
Classification and Generation [0.0]
我々はBradley-Terry選好モデルを利用して、元のモデルを効率的に微調整する高速適応法を開発した。
このフレームワークの能力の広範な証拠は、マルチモーダルテキストや画像理解に関連するさまざまな領域の実験を通じて提供される。
論文 参考訳(メタデータ) (2023-07-15T07:53:12Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Multi-Concept Customization of Text-to-Image Diffusion [51.8642043743222]
既存のテキスト・ツー・イメージ・モデルの効率的な拡張法であるCustom Diffusionを提案する。
テキスト・ツー・イメージ・コンディショニング機構におけるパラメータの最適化は,新しい概念を表現するのに十分強力であることがわかった。
本モデルは,複数の新しい概念のバリエーションを生成し,既存の概念を新しい設定でシームレスに構成する。
論文 参考訳(メタデータ) (2022-12-08T18:57:02Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - A Nested Weighted Tchebycheff Multi-Objective Bayesian Optimization
Approach for Flexibility of Unknown Utopia Estimation in Expensive Black-box
Design Problems [0.0]
既存の研究では、未知のユートピアを定式化するための重み付きTchebycheff MOBOアプローチが実証されている。
モデルアンサンブルから回帰モデル選択手順を構築する,ネスト重み付きTchebycheff MOBOフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-16T00:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。