Fugu-MT 論文翻訳(概要): Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models

論文の概要: Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models

arxiv url: http://arxiv.org/abs/2305.18292v2
Date: Fri, 10 Nov 2023 00:01:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-13 18:18:43.670840
Title: Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models
Title（参考訳）: mix-of-show:拡散モデルのマルチコンセプタカスタマイズのための分散低ランク適応
Authors: Yuchao Gu, Xintao Wang, Jay Zhangjie Wu, Yujun Shi, Yunpeng Chen, Zihan Fan, Wuyou Xiao, Rui Zhao, Shuning Chang, Weijia Wu, Yixiao Ge, Ying Shan, Mike Zheng Shou
Abstract要約: 低ランク適応(LoRA)を用いた新しい概念に対して、公共の大規模テキスト・画像拡散モデルを簡単にカスタマイズできる。複数のカスタマイズされた概念を共同でサポートするために複数の概念LoRAを利用することは、課題である。我々は、分散化されたマルチコンセプトカスタマイズの課題に対処するMix-of-Showと呼ばれる新しいフレームワークを提案する。
参考スコア（独自算出の注目度）: 72.67967883658957
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Public large-scale text-to-image diffusion models, such as Stable Diffusion, have gained significant attention from the community. These models can be easily customized for new concepts using low-rank adaptations (LoRAs). However, the utilization of multiple concept LoRAs to jointly support multiple customized concepts presents a challenge. We refer to this scenario as decentralized multi-concept customization, which involves single-client concept tuning and center-node concept fusion. In this paper, we propose a new framework called Mix-of-Show that addresses the challenges of decentralized multi-concept customization, including concept conflicts resulting from existing single-client LoRA tuning and identity loss during model fusion. Mix-of-Show adopts an embedding-decomposed LoRA (ED-LoRA) for single-client tuning and gradient fusion for the center node to preserve the in-domain essence of single concepts and support theoretically limitless concept fusion. Additionally, we introduce regionally controllable sampling, which extends spatially controllable sampling (e.g., ControlNet and T2I-Adaptor) to address attribute binding and missing object problems in multi-concept sampling. Extensive experiments demonstrate that Mix-of-Show is capable of composing multiple customized concepts with high fidelity, including characters, objects, and scenes.
Abstract（参考訳）: 安定拡散のような公共の大規模テキスト・画像拡散モデルは、コミュニティから大きな注目を集めている。これらのモデルはローランク適応(loras)を使用して新しい概念に容易にカスタマイズできる。しかしながら、複数のカスタマイズされた概念を共同でサポートする複数の概念ロラスの利用が課題となっている。このシナリオを、単一クライアントの概念チューニングと中心ノードの概念融合を含む分散マルチコンセプトカスタマイズと呼ぶ。本稿では,既存の単一クライアントloraチューニングとモデル融合時のid損失による概念衝突を含む,分散マルチコンセプタカスタマイズの課題を解決するmix-of-showと呼ばれる新しいフレームワークを提案する。 Mix-of-Showは、単一の概念のドメイン内の本質を保ち、理論的に制限のない概念融合をサポートするために、中心ノードの単一サイクルチューニングと勾配融合のために埋め込み分解されたLoRA(ED-LoRA)を採用する。さらに,マルチコンセプタサンプリングにおける属性バインディングやオブジェクト不足問題に対処するために,空間的に制御可能なサンプリング(例えば controlnet や t2i-adaptor)を拡張した局所制御可能なサンプリングを導入する。大規模な実験では、Mix-of-Showは複数のカスタマイズされたコンセプトを、キャラクター、オブジェクト、シーンを含む高い忠実度で構成できることを示した。

関連論文リスト

Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach [99.80480649258557]
DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
論文参考訳（メタデータ） (2025-12-08T05:04:54Z)
ConceptSplit: Decoupled Multi-Concept Personalization of Diffusion Models via Token-wise Adaptation and Attention Disentanglement [15.939409734710198]
本研究では,個別概念を学習と推論によって分割する新しいフレームワークであるConceptSplitを提案する。まず,ToVA(Token-wise Value Adaptation)を導入する。第2に,遠絡注意のための潜在最適化(LODA)を提案する。
論文参考訳（メタデータ） (2025-10-06T10:22:46Z)
Mod-Adapter: Tuning-Free and Versatile Multi-concept Personalization via Modulation Adapter [52.08332620725473]
テストタイムの微調整なしにオブジェクトと抽象概念を効果的にカスタマイズできるマルチコンセプトパーソナライズのためのチューニング不要な手法を提案する。本手法は, 定量的, 質的, 人的評価によって支援された多概念パーソナライゼーションにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-05-24T09:21:32Z)
Modular Customization of Diffusion Models via Blockwise-Parameterized Low-Rank Adaptation [73.16975077770765]
コンセプトのスタイリングやマルチコンセプトのカスタマイズといったアプリケーションには、モジュール化が不可欠である。インスタントマージ法は、個々のマージされた概念のアイデンティティ損失と干渉を引き起こすことが多い。個々の概念のアイデンティティを正確に保存しつつ,複数の概念を効率的に組み合わせたインスタントマージ手法であるBlockLoRAを提案する。
論文参考訳（メタデータ） (2025-03-11T16:10:36Z)
LoRACLR: Contrastive Adaptation for Customization of Diffusion Models [62.70911549650579]
LoRACLRは、複数のLoRAモデルを単一の統一モデルにマージする、マルチコンセプト画像生成の新しいアプローチである。 LoRACLRは、これらのモデルの重み空間を整列し、マージするために対照的な目的を使い、干渉を最小限にしながら互換性を確保する。本結果は,複数の概念を正確にマージし,パーソナライズされた画像生成能力を向上する上で,LoRACLRの有効性を強調した。
論文参考訳（メタデータ） (2024-12-12T18:59:55Z)
How to Continually Adapt Text-to-Image Diffusion Models for Flexible Customization? [91.49559116493414]
本稿では,CIDM(Concept-Incremental Text-to-image Diffusion Model)を提案する。破滅的な忘れと概念の無視を解決し、新しいカスタマイズタスクを概念的な方法で学習する。実験により、CIDMが既存のカスタム拡散モデルを上回ることが確認された。
論文参考訳（メタデータ） (2024-10-23T06:47:29Z)
AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization [3.5066393042242123]
本研究では,マルチコンセプト・ディコンタングルメントのための注意型手法であるAttenCraftを提案する。注意点に基づく適応アルゴリズムを導入し,異なる概念に対するサンプリング比を推定する。我々のモデルは,最新画像の忠実度と,ベースラインモデルに匹敵する即時忠実度という2つの問題を効果的に緩和する。
論文参考訳（メタデータ） (2024-05-28T08:50:14Z)
Improving Intervention Efficacy via Concept Realignment in Concept Bottleneck Models [57.86303579812877]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念に基づいて、解釈可能なモデル決定を可能にする画像分類である。既存のアプローチは、強いパフォーマンスを達成するために、画像ごとに多数の人間の介入を必要とすることが多い。本稿では,概念関係を利用した学習型概念認識介入モジュールについて紹介する。
論文参考訳（メタデータ） (2024-05-02T17:59:01Z)
Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文参考訳（メタデータ） (2024-04-11T03:00:00Z)
MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [49.935634230341904]
MC$2$と呼ばれるマルチコンセプトカスタマイズのためのマルチコンセプトガイダンスを導入し、柔軟性と忠実さを改善した。 MC$2$は、推論時間最適化を通じてモデルアーキテクチャの要件を分離する。視覚とテキストのトークン間の注意重みを適応的に改善し、画像領域に関連した単語に集中するよう指示する。
論文参考訳（メタデータ） (2024-04-08T07:59:04Z)
LoRA-Composer: Leveraging Low-Rank Adaptation for Multi-Concept Customization in Training-Free Diffusion Models [33.379758040084894]
ドメイン内の課題として、マルチコンセプトのカスタマイズが登場します。既存のアプローチでは、複数のローランド適応(LoRA)の融合行列をトレーニングして、さまざまな概念をひとつのイメージにマージすることが多い。 LoRA-Composerは、複数のLoRAをシームレスに統合するために設計されたトレーニング不要のフレームワークである。
論文参考訳（メタデータ） (2024-03-18T09:58:52Z)
OMG: Occlusion-friendly Personalized Multi-concept Generation in Diffusion Models [47.63060402915307]
OMGは、単一のイメージ内に複数の概念をシームレスに統合するように設計されたフレームワークである。 OMGはマルチコンセプトパーソナライゼーションにおいて優れた性能を示す。 civitai.comのLoRAモデルは直接利用することができる。
論文参考訳（メタデータ） (2024-03-16T17:30:15Z)
Concept-centric Personalization with Large-scale Diffusion Priors [7.684688573874212]
本稿では、概念中心のパーソナライゼーションとして、特定の概念に対する大規模な拡散先行をカスタマイズするタスクを提案する。我々のゴールは、オープンワールドモデルに固有の汎用性を維持しつつ、高品質なコンセプト中心の画像を生成することである。
論文参考訳（メタデータ） (2023-12-13T14:59:49Z)
FedDiff: Diffusion Model Driven Federated Learning for Multi-Modal and Multi-Clients [32.59184269562571]
我々はFedDiffと呼ばれる多モード協調拡散学習フレームワークを提案する。本フレームワークは,2つのモーダルデータをエンコーダの別々の分岐に入力するデュアルブランチ拡散モデル特徴抽出設定を確立する。複数のクライアント間のプライベートかつ効率的なコミュニケーションの課題を考慮し、拡散モデルを連合学習コミュニケーション構造に組み込む。
論文参考訳（メタデータ） (2023-11-16T02:29:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。