論文の概要: CLoRA: A Contrastive Approach to Compose Multiple LoRA Models
- arxiv url: http://arxiv.org/abs/2403.19776v1
- Date: Thu, 28 Mar 2024 18:58:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 17:23:49.405246
- Title: CLoRA: A Contrastive Approach to Compose Multiple LoRA Models
- Title(参考訳): CLoRA: 複数のLoRAモデルを構成するための対照的なアプローチ
- Authors: Tuna Han Salih Meral, Enis Simsar, Federico Tombari, Pinar Yanardag,
- Abstract要約: Low-Rank Adaptations (LoRA) は画像生成の分野で強力で一般的な技術として登場した。
CLoRAは、複数の概念をシームレスにブレンドして、さまざまな概念を1つのイメージでキャプチャする問題に対処する。
本手法は,LoRAの特性を反映した合成画像の作成を可能にする。
- 参考スコア(独自算出の注目度): 44.037664077117945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-Rank Adaptations (LoRAs) have emerged as a powerful and popular technique in the field of image generation, offering a highly effective way to adapt and refine pre-trained deep learning models for specific tasks without the need for comprehensive retraining. By employing pre-trained LoRA models, such as those representing a specific cat and a particular dog, the objective is to generate an image that faithfully embodies both animals as defined by the LoRAs. However, the task of seamlessly blending multiple concept LoRAs to capture a variety of concepts in one image proves to be a significant challenge. Common approaches often fall short, primarily because the attention mechanisms within different LoRA models overlap, leading to scenarios where one concept may be completely ignored (e.g., omitting the dog) or where concepts are incorrectly combined (e.g., producing an image of two cats instead of one cat and one dog). To overcome these issues, CLoRA addresses them by updating the attention maps of multiple LoRA models and leveraging them to create semantic masks that facilitate the fusion of latent representations. Our method enables the creation of composite images that truly reflect the characteristics of each LoRA, successfully merging multiple concepts or styles. Our comprehensive evaluations, both qualitative and quantitative, demonstrate that our approach outperforms existing methodologies, marking a significant advancement in the field of image generation with LoRAs. Furthermore, we share our source code, benchmark dataset, and trained LoRA models to promote further research on this topic.
- Abstract(参考訳): Low-Rank Adaptations (LoRA) は画像生成の分野で強力でポピュラーな手法として登場し、包括的なリトレーニングを必要とせずに、特定のタスクのために事前学習されたディープラーニングモデルを適応および洗練するための非常に効果的な方法を提供している。
特定の猫と特定の犬を表すような訓練済みのLoRAモデルを使用することで、両方の動物をLoRAが定義したように忠実に具体化する画像を生成することが目的である。
しかし、複数の概念LoRAをシームレスにブレンドして1つのイメージに様々な概念をキャプチャするという作業は、大きな課題であることが証明されている。
共通アプローチは、主に異なるLoRAモデル内の注意機構が重なり合うため、ひとつの概念が完全に無視される場合(例えば、犬を省略する場合)や、誤って組み合わせられた場合(例えば、1匹の猫と1匹の犬の代わりに2匹の猫のイメージを生成する場合)に起因する。
これらの問題を解決するために、CLoRAは複数のLoRAモデルのアテンションマップを更新し、それらを利用して潜在表現の融合を容易にするセマンティックマスクを作成する。
提案手法により,各LoRAの特徴を反映した合成画像の作成が可能となり,複数の概念やスタイルの融合に成功している。
我々の総合的な評価は質的・定量的に、既存の手法よりも優れており、LoRAによる画像生成の分野において顕著な進歩を示している。
さらに、ソースコード、ベンチマークデータセット、トレーニングされたLoRAモデルを共有して、このトピックに関するさらなる研究を促進します。
関連論文リスト
- Cached Multi-Lora Composition for Multi-Concept Image Generation [10.433033595844442]
Low-Rank Adaptation (LoRA) はテキスト・ツー・イメージ・モデルにおいて広く採用されている手法である。
現在のアプローチでは、マルチコンセプト画像生成のためにこれらのLoRAを構成する際に大きな課題に直面している。
我々は,複数のLoRAを効率的に統合するために設計された,新しいトレーニングフリーフレームワークであるCached Multi-LoRA(CMLoRA)を紹介した。
論文 参考訳(メタデータ) (2025-02-07T13:41:51Z) - A LoRA is Worth a Thousand Pictures [28.928964530616593]
低ランク適応(LoRA)は、最小限のデータと計算を用いてアーティストのスタイルや主題を再現することができる。
画像生成やトレーニングセットの知識を必要とせずに,LoRA重みだけで効果的なスタイル記述子として機能することを示す。
ゼロショットLORAファインチューニングやモデル属性など,将来的な応用の可能性について論じる。
論文 参考訳(メタデータ) (2024-12-16T18:18:17Z) - LoRACLR: Contrastive Adaptation for Customization of Diffusion Models [62.70911549650579]
LoRACLRは、複数のLoRAモデルを単一の統一モデルにマージする、マルチコンセプト画像生成の新しいアプローチである。
LoRACLRは、これらのモデルの重み空間を整列し、マージするために対照的な目的を使い、干渉を最小限にしながら互換性を確保する。
本結果は,複数の概念を正確にマージし,パーソナライズされた画像生成能力を向上する上で,LoRACLRの有効性を強調した。
論文 参考訳(メタデータ) (2024-12-12T18:59:55Z) - LoRA.rar: Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation [28.098287135605364]
画像品質を向上し、マージ処理において4000ドルを超える驚くべきスピードアップを実現する方法であるLoRA.rarを紹介する。
LoRA.rarは、様々なコンテンツスタイルのLoRAペアのハイパーネットワークを事前トレーニングし、新しい、目に見えないコンテンツスタイルのペアに一般化する効率的なマージ戦略を学ぶ。
本手法は,MLLMの評価と人的評価によって評価され,内容とスタイルの忠実さの両面で技術の現状を著しく上回っている。
論文 参考訳(メタデータ) (2024-12-06T16:04:56Z) - LoRA of Change: Learning to Generate LoRA for the Editing Instruction from A Single Before-After Image Pair [116.48684498656871]
視覚的指示を用いた画像編集のためのLoRA of Change (LoC) フレームワークを提案する。
我々は、命令固有のLoRAを学習し、事前のイメージペアで「変更」を符号化し、モデルの解釈可能性と再利用性を高める。
本モデルでは,ユーザ意図に整合した高品質な画像を生成し,現実世界の視覚的指示の幅広い範囲をサポートする。
論文 参考訳(メタデータ) (2024-11-28T13:55:06Z) - UIR-LoRA: Achieving Universal Image Restoration through Multiple Low-Rank Adaptation [50.27688690379488]
既存の統合手法は、マルチタスク学習問題として、多重劣化画像復元を扱う。
本稿では,複数のローランクアダプタ(LoRA)をベースとした汎用画像復元フレームワークを提案する。
本フレームワークは, 学習前の生成モデルを多段劣化復元のための共有コンポーネントとして利用し, 特定の劣化画像復元タスクに転送する。
論文 参考訳(メタデータ) (2024-09-30T11:16:56Z) - Mixture of LoRA Experts [87.50120181861362]
本稿では,階層的制御と未分散分岐選択を利用する LoRA Experts (MoLE) アプローチを提案する。
MoLEアプローチは直接算術マージよりも優れたLoRA融合性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T11:59:53Z) - Multi-LoRA Composition for Image Generation [107.83002438126832]
復号化中心の観点から,マルチロラ合成について検討する。
我々は,各聴覚ステップで異なるLoRAを交互に切り替えるLoRA Switchと,より密着的な画像合成を導くためにすべてのLoRAを同時に組み込むLoRA Compositeの2つのトレーニングフリー手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T18:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。