論文の概要: Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept
Customization of Diffusion Models
- arxiv url: http://arxiv.org/abs/2305.18292v2
- Date: Fri, 10 Nov 2023 00:01:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 18:18:43.670840
- Title: Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept
Customization of Diffusion Models
- Title(参考訳): mix-of-show:拡散モデルのマルチコンセプタカスタマイズのための分散低ランク適応
- Authors: Yuchao Gu, Xintao Wang, Jay Zhangjie Wu, Yujun Shi, Yunpeng Chen,
Zihan Fan, Wuyou Xiao, Rui Zhao, Shuning Chang, Weijia Wu, Yixiao Ge, Ying
Shan, Mike Zheng Shou
- Abstract要約: 低ランク適応(LoRA)を用いた新しい概念に対して、公共の大規模テキスト・画像拡散モデルを簡単にカスタマイズできる。
複数のカスタマイズされた概念を共同でサポートするために複数の概念LoRAを利用することは、課題である。
我々は、分散化されたマルチコンセプトカスタマイズの課題に対処するMix-of-Showと呼ばれる新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 72.67967883658957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Public large-scale text-to-image diffusion models, such as Stable Diffusion,
have gained significant attention from the community. These models can be
easily customized for new concepts using low-rank adaptations (LoRAs). However,
the utilization of multiple concept LoRAs to jointly support multiple
customized concepts presents a challenge. We refer to this scenario as
decentralized multi-concept customization, which involves single-client concept
tuning and center-node concept fusion. In this paper, we propose a new
framework called Mix-of-Show that addresses the challenges of decentralized
multi-concept customization, including concept conflicts resulting from
existing single-client LoRA tuning and identity loss during model fusion.
Mix-of-Show adopts an embedding-decomposed LoRA (ED-LoRA) for single-client
tuning and gradient fusion for the center node to preserve the in-domain
essence of single concepts and support theoretically limitless concept fusion.
Additionally, we introduce regionally controllable sampling, which extends
spatially controllable sampling (e.g., ControlNet and T2I-Adaptor) to address
attribute binding and missing object problems in multi-concept sampling.
Extensive experiments demonstrate that Mix-of-Show is capable of composing
multiple customized concepts with high fidelity, including characters, objects,
and scenes.
- Abstract(参考訳): 安定拡散のような公共の大規模テキスト・画像拡散モデルは、コミュニティから大きな注目を集めている。
これらのモデルはローランク適応(loras)を使用して新しい概念に容易にカスタマイズできる。
しかしながら、複数のカスタマイズされた概念を共同でサポートする複数の概念ロラスの利用が課題となっている。
このシナリオを、単一クライアントの概念チューニングと中心ノードの概念融合を含む分散マルチコンセプトカスタマイズと呼ぶ。
本稿では,既存の単一クライアントloraチューニングとモデル融合時のid損失による概念衝突を含む,分散マルチコンセプタカスタマイズの課題を解決するmix-of-showと呼ばれる新しいフレームワークを提案する。
Mix-of-Showは、単一の概念のドメイン内の本質を保ち、理論的に制限のない概念融合をサポートするために、中心ノードの単一サイクルチューニングと勾配融合のために埋め込み分解されたLoRA(ED-LoRA)を採用する。
さらに,マルチコンセプタサンプリングにおける属性バインディングやオブジェクト不足問題に対処するために,空間的に制御可能なサンプリング(例えば controlnet や t2i-adaptor)を拡張した局所制御可能なサンプリングを導入する。
大規模な実験では、Mix-of-Showは複数のカスタマイズされたコンセプトを、キャラクター、オブジェクト、シーンを含む高い忠実度で構成できることを示した。
関連論文リスト
- Visual Concept-driven Image Generation with Text-to-Image Diffusion
Model [69.89451490936652]
テキスト・ツー・イメージ(TTI)モデルでは、複雑で想像力のあるシーンの高解像度画像を生成するという印象的な結果が示されている。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Concept-centric Personalization with Large-scale Diffusion Priors [7.684688573874212]
本稿では、概念中心のパーソナライゼーションとして、特定の概念に対する大規模な拡散先行をカスタマイズするタスクを提案する。
我々のゴールは、オープンワールドモデルに固有の汎用性を維持しつつ、高品質なコンセプト中心の画像を生成することである。
論文 参考訳(メタデータ) (2023-12-13T14:59:49Z) - Orthogonal Adaptation for Modular Customization of Diffusion Models [42.51086622161094]
我々は、カスタマイズされたモデルを効率的にマージすることを目的として、Modular Customizationと呼ばれる新しい問題に対処する。
直交適応(Orthogonal Adaptation, Orthogonal Adaptation)は,微調整時に相互にアクセスできないカスタマイズモデルを支援する手法である。
提案手法は単純かつ汎用的であり,モデルアーキテクチャのほぼすべての最適化可能な重みに適用可能である。
論文 参考訳(メタデータ) (2023-12-05T02:17:48Z) - Auxiliary Losses for Learning Generalizable Concept-based Models [5.4066453042367435]
コンセプト・ボトルネック・モデル (Concept Bottleneck Models, CBM) は導入以来人気を集めている。
CBMは基本的に、モデルの潜在空間を人間に理解可能な高レベルな概念に制限する。
本稿では,協調型コンセプション・ボトルネックモデル(coop-CBM)を提案し,性能トレードオフを克服する。
論文 参考訳(メタデータ) (2023-11-18T15:50:07Z) - FedDiff: Diffusion Model Driven Federated Learning for Multi-Modal and
Multi-Clients [32.59184269562571]
我々はFedDiffと呼ばれる多モード協調拡散学習フレームワークを提案する。
本フレームワークは,2つのモーダルデータをエンコーダの別々の分岐に入力するデュアルブランチ拡散モデル特徴抽出設定を確立する。
複数のクライアント間のプライベートかつ効率的なコミュニケーションの課題を考慮し、拡散モデルを連合学習コミュニケーション構造に組み込む。
論文 参考訳(メタデータ) (2023-11-16T02:29:37Z) - Collaborative Development of NLP models [6.22933818252838]
我々は,NLPモデルとのマルチユーザインタラクションを実現するフレームワークであるCoDevを紹介する。
CoDevは、ユーザーが大規模言語モデルを使って概念を運用するのを助ける。
次に、大きな言語モデルを使って、ローカルとグローバルの意見が一致しない概念境界内のインスタンスを生成します。
論文 参考訳(メタデータ) (2023-05-20T15:55:39Z) - Multi-Concept Customization of Text-to-Image Diffusion [51.8642043743222]
既存のテキスト・ツー・イメージ・モデルの効率的な拡張法であるCustom Diffusionを提案する。
テキスト・ツー・イメージ・コンディショニング機構におけるパラメータの最適化は,新しい概念を表現するのに十分強力であることがわかった。
本モデルは,複数の新しい概念のバリエーションを生成し,既存の概念を新しい設定でシームレスに構成する。
論文 参考訳(メタデータ) (2022-12-08T18:57:02Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z) - Multi-Scale Boosted Dehazing Network with Dense Feature Fusion [92.92572594942071]
U-Netアーキテクチャに基づくDense Feature Fusionを用いたマルチスケールブーストデハージングネットワークを提案する。
提案モデルでは,ベンチマークデータセットや実世界のハジー画像に対する最先端のアプローチに対して,好意的に機能することを示す。
論文 参考訳(メタデータ) (2020-04-28T09:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。