論文の概要: Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept
Customization of Diffusion Models
- arxiv url: http://arxiv.org/abs/2305.18292v1
- Date: Mon, 29 May 2023 17:58:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 13:34:31.719083
- Title: Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept
Customization of Diffusion Models
- Title(参考訳): mix-of-show:拡散モデルのマルチコンセプタカスタマイズのための分散低ランク適応
- Authors: Yuchao Gu, Xintao Wang, Jay Zhangjie Wu, Yujun Shi, Yunpeng Chen,
Zihan Fan, Wuyou Xiao, Rui Zhao, Shuning Chang, Weijia Wu, Yixiao Ge, Ying
Shan, Mike Zheng Shou
- Abstract要約: 低ランク適応(LoRA)を用いた新しい概念に対して、公共の大規模テキスト・画像拡散モデルを簡単にカスタマイズできる。
複数のカスタマイズされた概念を共同でサポートするために複数の概念LoRAを利用することは、課題である。
我々は、分散化されたマルチコンセプトカスタマイズの課題に対処するMix-of-Showと呼ばれる新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 36.272578262404956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Public large-scale text-to-image diffusion models, such as Stable Diffusion,
have gained significant attention from the community. These models can be
easily customized for new concepts using low-rank adaptations (LoRAs). However,
the utilization of multiple concept LoRAs to jointly support multiple
customized concepts presents a challenge. We refer to this scenario as
decentralized multi-concept customization, which involves single-client concept
tuning and center-node concept fusion. In this paper, we propose a new
framework called Mix-of-Show that addresses the challenges of decentralized
multi-concept customization, including concept conflicts resulting from
existing single-client LoRA tuning and identity loss during model fusion.
Mix-of-Show adopts an embedding-decomposed LoRA (ED-LoRA) for single-client
tuning and gradient fusion for the center node to preserve the in-domain
essence of single concepts and support theoretically limitless concept fusion.
Additionally, we introduce regionally controllable sampling, which extends
spatially controllable sampling (e.g., ControlNet and T2I-Adaptor) to address
attribute binding and missing object problems in multi-concept sampling.
Extensive experiments demonstrate that Mix-of-Show is capable of composing
multiple customized concepts with high fidelity, including characters, objects,
and scenes.
- Abstract(参考訳): 安定拡散のような公共の大規模テキスト・画像拡散モデルは、コミュニティから大きな注目を集めている。
これらのモデルはローランク適応(loras)を使用して新しい概念に容易にカスタマイズできる。
しかしながら、複数のカスタマイズされた概念を共同でサポートする複数の概念ロラスの利用が課題となっている。
このシナリオを、単一クライアントの概念チューニングと中心ノードの概念融合を含む分散マルチコンセプトカスタマイズと呼ぶ。
本稿では,既存の単一クライアントloraチューニングとモデル融合時のid損失による概念衝突を含む,分散マルチコンセプタカスタマイズの課題を解決するmix-of-showと呼ばれる新しいフレームワークを提案する。
Mix-of-Showは、単一の概念のドメイン内の本質を保ち、理論的に制限のない概念融合をサポートするために、中心ノードの単一サイクルチューニングと勾配融合のために埋め込み分解されたLoRA(ED-LoRA)を採用する。
さらに,マルチコンセプタサンプリングにおける属性バインディングやオブジェクト不足問題に対処するために,空間的に制御可能なサンプリング(例えば controlnet や t2i-adaptor)を拡張した局所制御可能なサンプリングを導入する。
大規模な実験では、Mix-of-Showは複数のカスタマイズされたコンセプトを、キャラクター、オブジェクト、シーンを含む高い忠実度で構成できることを示した。
関連論文リスト
- How to Continually Adapt Text-to-Image Diffusion Models for Flexible Customization? [91.49559116493414]
本稿では,CIDM(Concept-Incremental Text-to-image Diffusion Model)を提案する。
破滅的な忘れと概念の無視を解決し、新しいカスタマイズタスクを概念的な方法で学習する。
実験により、CIDMが既存のカスタム拡散モデルを上回ることが確認された。
論文 参考訳(メタデータ) (2024-10-23T06:47:29Z) - Improving Intervention Efficacy via Concept Realignment in Concept Bottleneck Models [57.86303579812877]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念に基づいて、解釈可能なモデル決定を可能にする画像分類である。
既存のアプローチは、強いパフォーマンスを達成するために、画像ごとに多数の人間の介入を必要とすることが多い。
本稿では,概念関係を利用した学習型概念認識介入モジュールについて紹介する。
論文 参考訳(メタデータ) (2024-05-02T17:59:01Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [49.935634230341904]
MC$2$と呼ばれるマルチコンセプトカスタマイズのためのマルチコンセプトガイダンスを導入し、柔軟性と忠実さを改善した。
MC$2$は、推論時間最適化を通じてモデルアーキテクチャの要件を分離する。
視覚とテキストのトークン間の注意重みを適応的に改善し、画像領域に関連した単語に集中するよう指示する。
論文 参考訳(メタデータ) (2024-04-08T07:59:04Z) - LoRA-Composer: Leveraging Low-Rank Adaptation for Multi-Concept Customization in Training-Free Diffusion Models [33.379758040084894]
ドメイン内の課題として、マルチコンセプトのカスタマイズが登場します。
既存のアプローチでは、複数のローランド適応(LoRA)の融合行列をトレーニングして、さまざまな概念をひとつのイメージにマージすることが多い。
LoRA-Composerは、複数のLoRAをシームレスに統合するために設計されたトレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2024-03-18T09:58:52Z) - OMG: Occlusion-friendly Personalized Multi-concept Generation in Diffusion Models [47.63060402915307]
OMGは、単一のイメージ内に複数の概念をシームレスに統合するように設計されたフレームワークである。
OMGはマルチコンセプトパーソナライゼーションにおいて優れた性能を示す。
civitai.comのLoRAモデルは直接利用することができる。
論文 参考訳(メタデータ) (2024-03-16T17:30:15Z) - Concept-centric Personalization with Large-scale Diffusion Priors [7.684688573874212]
本稿では、概念中心のパーソナライゼーションとして、特定の概念に対する大規模な拡散先行をカスタマイズするタスクを提案する。
我々のゴールは、オープンワールドモデルに固有の汎用性を維持しつつ、高品質なコンセプト中心の画像を生成することである。
論文 参考訳(メタデータ) (2023-12-13T14:59:49Z) - FedDiff: Diffusion Model Driven Federated Learning for Multi-Modal and
Multi-Clients [32.59184269562571]
我々はFedDiffと呼ばれる多モード協調拡散学習フレームワークを提案する。
本フレームワークは,2つのモーダルデータをエンコーダの別々の分岐に入力するデュアルブランチ拡散モデル特徴抽出設定を確立する。
複数のクライアント間のプライベートかつ効率的なコミュニケーションの課題を考慮し、拡散モデルを連合学習コミュニケーション構造に組み込む。
論文 参考訳(メタデータ) (2023-11-16T02:29:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。