論文の概要: CLoRA: A Contrastive Approach to Compose Multiple LoRA Models
- arxiv url: http://arxiv.org/abs/2403.19776v1
- Date: Thu, 28 Mar 2024 18:58:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 17:23:49.405246
- Title: CLoRA: A Contrastive Approach to Compose Multiple LoRA Models
- Title(参考訳): CLoRA: 複数のLoRAモデルを構成するための対照的なアプローチ
- Authors: Tuna Han Salih Meral, Enis Simsar, Federico Tombari, Pinar Yanardag,
- Abstract要約: Low-Rank Adaptations (LoRA) は画像生成の分野で強力で一般的な技術として登場した。
CLoRAは、複数の概念をシームレスにブレンドして、さまざまな概念を1つのイメージでキャプチャする問題に対処する。
本手法は,LoRAの特性を反映した合成画像の作成を可能にする。
- 参考スコア(独自算出の注目度): 44.037664077117945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-Rank Adaptations (LoRAs) have emerged as a powerful and popular technique in the field of image generation, offering a highly effective way to adapt and refine pre-trained deep learning models for specific tasks without the need for comprehensive retraining. By employing pre-trained LoRA models, such as those representing a specific cat and a particular dog, the objective is to generate an image that faithfully embodies both animals as defined by the LoRAs. However, the task of seamlessly blending multiple concept LoRAs to capture a variety of concepts in one image proves to be a significant challenge. Common approaches often fall short, primarily because the attention mechanisms within different LoRA models overlap, leading to scenarios where one concept may be completely ignored (e.g., omitting the dog) or where concepts are incorrectly combined (e.g., producing an image of two cats instead of one cat and one dog). To overcome these issues, CLoRA addresses them by updating the attention maps of multiple LoRA models and leveraging them to create semantic masks that facilitate the fusion of latent representations. Our method enables the creation of composite images that truly reflect the characteristics of each LoRA, successfully merging multiple concepts or styles. Our comprehensive evaluations, both qualitative and quantitative, demonstrate that our approach outperforms existing methodologies, marking a significant advancement in the field of image generation with LoRAs. Furthermore, we share our source code, benchmark dataset, and trained LoRA models to promote further research on this topic.
- Abstract(参考訳): Low-Rank Adaptations (LoRA) は画像生成の分野で強力でポピュラーな手法として登場し、包括的なリトレーニングを必要とせずに、特定のタスクのために事前学習されたディープラーニングモデルを適応および洗練するための非常に効果的な方法を提供している。
特定の猫と特定の犬を表すような訓練済みのLoRAモデルを使用することで、両方の動物をLoRAが定義したように忠実に具体化する画像を生成することが目的である。
しかし、複数の概念LoRAをシームレスにブレンドして1つのイメージに様々な概念をキャプチャするという作業は、大きな課題であることが証明されている。
共通アプローチは、主に異なるLoRAモデル内の注意機構が重なり合うため、ひとつの概念が完全に無視される場合(例えば、犬を省略する場合)や、誤って組み合わせられた場合(例えば、1匹の猫と1匹の犬の代わりに2匹の猫のイメージを生成する場合)に起因する。
これらの問題を解決するために、CLoRAは複数のLoRAモデルのアテンションマップを更新し、それらを利用して潜在表現の融合を容易にするセマンティックマスクを作成する。
提案手法により,各LoRAの特徴を反映した合成画像の作成が可能となり,複数の概念やスタイルの融合に成功している。
我々の総合的な評価は質的・定量的に、既存の手法よりも優れており、LoRAによる画像生成の分野において顕著な進歩を示している。
さらに、ソースコード、ベンチマークデータセット、トレーニングされたLoRAモデルを共有して、このトピックに関するさらなる研究を促進します。
関連論文リスト
- LoRA Soups: Merging LoRAs for Practical Skill Composition Tasks [73.09643674975591]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)のパラメータ効率の高い微調整手法である。
異なるLoRAモジュールをマージして,スキルコンポジションを実現する方法について検討する。
論文 参考訳(メタデータ) (2024-10-16T20:33:06Z) - AutoLoRA: AutoGuidance Meets Low-Rank Adaptation for Diffusion Models [0.9514837871243403]
低ランク適応(LoRA)は条件付き生成拡散モデルに適用できる微調整技術である。
本稿では,LoRAアプローチを微調整した拡散モデルのための新しいガイダンス手法であるAutoLoRAを紹介する。
論文 参考訳(メタデータ) (2024-10-04T21:57:11Z) - UIR-LoRA: Achieving Universal Image Restoration through Multiple Low-Rank Adaptation [50.27688690379488]
既存の統合手法は、マルチタスク学習問題として、多重劣化画像復元を扱う。
本稿では,複数のローランクアダプタ(LoRA)をベースとした汎用画像復元フレームワークを提案する。
本フレームワークは, 学習前の生成モデルを多段劣化復元のための共有コンポーネントとして利用し, 特定の劣化画像復元タスクに転送する。
論文 参考訳(メタデータ) (2024-09-30T11:16:56Z) - DiffLoRA: Generating Personalized Low-Rank Adaptation Weights with Diffusion [42.38655393158855]
DiffLoRAは、拡散モデルをハイパーネットワークとして活用し、パーソナライズされた低ランク適応重みを予測する新しいアプローチである。
これらのLoRA重みをテキスト・ツー・イメージモデルに統合することにより、DiffLoRAは推論中のパーソナライズをさらなるトレーニングなしで達成する。
論文 参考訳(メタデータ) (2024-08-13T09:00:35Z) - Mixture of LoRA Experts [87.50120181861362]
本稿では,階層的制御と未分散分岐選択を利用する LoRA Experts (MoLE) アプローチを提案する。
MoLEアプローチは直接算術マージよりも優れたLoRA融合性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T11:59:53Z) - Implicit Style-Content Separation using B-LoRA [61.664293840163865]
一つの画像のスタイルとコンテンツコンポーネントを暗黙的に分離する手法であるB-LoRAを紹介する。
SDXLのアーキテクチャをLoRAと組み合わせて解析することにより、2つのブロックのLoRA重みを共同で学習することで、スタイル・コンテント分離を実現する。
論文 参考訳(メタデータ) (2024-03-21T17:20:21Z) - LoRA-Composer: Leveraging Low-Rank Adaptation for Multi-Concept Customization in Training-Free Diffusion Models [33.379758040084894]
ドメイン内の課題として、マルチコンセプトのカスタマイズが登場します。
既存のアプローチでは、複数のローランド適応(LoRA)の融合行列をトレーニングして、さまざまな概念をひとつのイメージにマージすることが多い。
LoRA-Composerは、複数のLoRAをシームレスに統合するために設計されたトレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2024-03-18T09:58:52Z) - Multi-LoRA Composition for Image Generation [111.88506763476249]
復号化中心の観点から,マルチロラ合成について検討する。
我々は,各聴覚ステップで異なるLoRAを交互に切り替えるLoRA Switchと,より密着的な画像合成を導くためにすべてのLoRAを同時に組み込むLoRA Compositeの2つのトレーニングフリー手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T18:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。