論文の概要: LoRA-Composer: Leveraging Low-Rank Adaptation for Multi-Concept Customization in Training-Free Diffusion Models
- arxiv url: http://arxiv.org/abs/2403.11627v1
- Date: Mon, 18 Mar 2024 09:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 15:47:44.303926
- Title: LoRA-Composer: Leveraging Low-Rank Adaptation for Multi-Concept Customization in Training-Free Diffusion Models
- Title(参考訳): LoRA-Composer:学習自由拡散モデルにおけるマルチコンセプトカスタマイズのための低ランク適応の活用
- Authors: Yang Yang, Wen Wang, Liang Peng, Chaotian Song, Yao Chen, Hengjia Li, Xiaolong Yang, Qinglin Lu, Deng Cai, Boxi Wu, Wei Liu,
- Abstract要約: ドメイン内の課題として、マルチコンセプトのカスタマイズが登場します。
既存のアプローチでは、複数のLoRAのローランド適応(LoRA)融合行列をトレーニングして、さまざまな概念を単一のイメージにマージすることが多い。
LoRA-Composerは、複数のLoRAをシームレスに統合するために設計されたトレーニング不要のフレームワークである。
- 参考スコア(独自算出の注目度): 33.379758040084894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Customization generation techniques have significantly advanced the synthesis of specific concepts across varied contexts. Multi-concept customization emerges as the challenging task within this domain. Existing approaches often rely on training a Low-Rank Adaptations (LoRA) fusion matrix of multiple LoRA to merge various concepts into a single image. However, we identify this straightforward method faces two major challenges: 1) concept confusion, which occurs when the model cannot preserve distinct individual characteristics, and 2) concept vanishing, where the model fails to generate the intended subjects. To address these issues, we introduce LoRA-Composer, a training-free framework designed for seamlessly integrating multiple LoRAs, thereby enhancing the harmony among different concepts within generated images. LoRA-Composer addresses concept vanishing through Concept Injection Constraints, enhancing concept visibility via an expanded cross-attention mechanism. To combat concept confusion, Concept Isolation Constraints are introduced, refining the self-attention computation. Furthermore, Latent Re-initialization is proposed to effectively stimulate concept-specific latent within designated regions. Our extensive testing showcases a notable enhancement in LoRA-Composer's performance compared to standard baselines, especially when eliminating the image-based conditions like canny edge or pose estimations. Code is released at https://github.com/Young98CN/LoRA\_Composer.
- Abstract(参考訳): カスタマイズ生成技術は、さまざまなコンテキストにまたがる特定の概念の合成を著しく進歩させてきた。
ドメイン内の課題として、マルチコンセプトのカスタマイズが登場します。
既存のアプローチでは、複数のLoRAのローランド適応(LoRA)融合行列をトレーニングして、さまざまな概念を単一のイメージにマージすることが多い。
しかし、この簡単な方法は2つの大きな課題に直面している。
1)モデルが個々の特性を個別に保持できない場合に発生する概念混乱、及び
2) モデルが意図した主題を生成するのに失敗する概念が消滅する。
これらの問題に対処するために,複数のLoRAをシームレスに統合するトレーニングフリーフレームワークであるLoRA-Composerを導入する。
LoRA-ComposerはConcept Injection Constraintsを通じて消滅するコンセプトに対処し、拡張されたクロスアテンションメカニズムを通じて概念の可視性を高める。
概念の混乱に対処するため、概念分離制約を導入し、自己注意計算を精査する。
さらに, 特定領域における概念特異的潜伏を効果的に刺激するために, 潜伏再初期化を提案する。
我々の広範囲なテストでは、標準ベースラインと比較してLoRA-Composerの性能が顕著に向上しており、特にキャニーエッジやポーズ推定のような画像ベースの条件を排除している。
コードはhttps://github.com/Young98CN/LoRA\_Composerで公開されている。
関連論文リスト
- Infusion: Preventing Customized Text-to-Image Diffusion from Overfitting [51.606819347636076]
本研究では, 概念知識を損なう概念非依存オーバーフィッティングと, 限られたモダリティのカスタマイズに限定した概念特化オーバーフィッティングを分析した。
Infusionは、ターゲット概念の学習を、限られた訓練モダリティによって制限されるのを避けることができるT2Iカスタマイズ手法である。
論文 参考訳(メタデータ) (2024-04-22T09:16:25Z) - MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [49.935634230341904]
MC$2$と呼ばれるマルチコンセプトカスタマイズのためのマルチコンセプトガイダンスを導入し、柔軟性と忠実さを改善した。
MC$2$は、推論時間最適化を通じてモデルアーキテクチャの要件を分離する。
視覚とテキストのトークン間の注意重みを適応的に改善し、画像領域に関連した単語に集中するよう指示する。
論文 参考訳(メタデータ) (2024-04-08T07:59:04Z) - OMG: Occlusion-friendly Personalized Multi-concept Generation in Diffusion Models [47.63060402915307]
OMGは、単一のイメージ内に複数の概念をシームレスに統合するように設計されたフレームワークである。
OMGはマルチコンセプトパーソナライゼーションにおいて優れた性能を示す。
civitai.comのLoRAモデルは直接利用することができる。
論文 参考訳(メタデータ) (2024-03-16T17:30:15Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion
Model [69.89451490936652]
テキスト・ツー・イメージ(TTI)モデルでは、複雑で想像力のあるシーンの高解像度画像を生成するという印象的な結果が示されている。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Separable Multi-Concept Erasure from Diffusion Models [52.51972530398691]
大規模拡散モデルから安全でない概念を排除するために,分離可能なマルチコンセプト消去器(SepME)を提案する。
後者は最適化可能なモデルウェイトを分離し、各ウェイトインクリメントは特定の概念の消去に対応する。
広範囲にわたる実験は, 概念の排除, モデル性能の保存, 各種概念の消去・回復における柔軟性の確保に, アプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-03T11:10:57Z) - Hierarchical Concept Discovery Models: A Concept Pyramid Scheme [11.138948381367133]
この研究は、アンテホック解釈可能性、特に概念ボトルネックモデル(CBM)をターゲットにしている。
私たちのゴールは、人間の理解可能な概念に関して、高度に解釈可能な意思決定プロセスを認めるフレームワークを設計することです。
この枠組みの中では、概念情報は全体像と一般的な非構造化概念との類似性にのみ依存しない。
論文 参考訳(メタデータ) (2023-10-03T14:57:31Z) - Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept
Customization of Diffusion Models [72.67967883658957]
低ランク適応(LoRA)を用いた新しい概念に対して、公共の大規模テキスト・画像拡散モデルを簡単にカスタマイズできる。
複数のカスタマイズされた概念を共同でサポートするために複数の概念LoRAを利用することは、課題である。
我々は、分散化されたマルチコンセプトカスタマイズの課題に対処するMix-of-Showと呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:58:16Z) - ACSeg: Adaptive Conceptualization for Unsupervised Semantic Segmentation [17.019848796027485]
自己教師付き視覚事前学習モデルでは,画素レベルの意味的関係を表現することに大きな期待が持たれている。
本研究では,自己学習モデルにおける画素レベルのセマンティックアグリゲーションを画像エンコードや設計概念として検討する。
本稿では,これらのプロトタイプを各画像に対する情報的概念に適応的にマッピングするアダプティブ・コンセプト・ジェネレータ(ACG)を提案する。
論文 参考訳(メタデータ) (2022-10-12T06:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。