Fugu-MT 論文翻訳(概要): LoRACLR: Contrastive Adaptation for Customization of Diffusion Models

論文の概要: LoRACLR: Contrastive Adaptation for Customization of Diffusion Models

arxiv url: http://arxiv.org/abs/2412.09622v1
Date: Thu, 12 Dec 2024 18:59:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-13 15:57:57.497867
Title: LoRACLR: Contrastive Adaptation for Customization of Diffusion Models
Title（参考訳）: LoRACLR: 拡散モデルのカスタマイズのための対照的な適応
Authors: Enis Simsar, Thomas Hofmann, Federico Tombari, Pinar Yanardag,
Abstract要約: LoRACLRは、複数のLoRAモデルを単一の統一モデルにマージする、マルチコンセプト画像生成の新しいアプローチである。 LoRACLRは、これらのモデルの重み空間を整列し、マージするために対照的な目的を使い、干渉を最小限にしながら互換性を確保する。本結果は,複数の概念を正確にマージし,パーソナライズされた画像生成能力を向上する上で,LoRACLRの有効性を強調した。
参考スコア（独自算出の注目度）: 62.70911549650579
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in text-to-image customization have enabled high-fidelity, context-rich generation of personalized images, allowing specific concepts to appear in a variety of scenarios. However, current methods struggle with combining multiple personalized models, often leading to attribute entanglement or requiring separate training to preserve concept distinctiveness. We present LoRACLR, a novel approach for multi-concept image generation that merges multiple LoRA models, each fine-tuned for a distinct concept, into a single, unified model without additional individual fine-tuning. LoRACLR uses a contrastive objective to align and merge the weight spaces of these models, ensuring compatibility while minimizing interference. By enforcing distinct yet cohesive representations for each concept, LoRACLR enables efficient, scalable model composition for high-quality, multi-concept image synthesis. Our results highlight the effectiveness of LoRACLR in accurately merging multiple concepts, advancing the capabilities of personalized image generation.
Abstract（参考訳）: テキスト・ツー・イメージのカスタマイズの最近の進歩により、高忠実でコンテキストに富んだパーソナライズされた画像の生成が可能となり、様々なシナリオに特定の概念が現れるようになった。しかし、現在の手法は複数のパーソナライズされたモデルを組み合わせることに苦慮しており、しばしば属性の絡み合いや、概念の特異性を維持するために個別のトレーニングを必要としている。異なる概念のために微調整された複数のLoRAモデルを,個別の微調整を伴わない単一の統一モデルにマージする,マルチコンセプト画像生成のための新しいアプローチであるLoRACLRを提案する。 LoRACLRは、これらのモデルの重み空間を整列し、マージするために対照的な目的を使い、干渉を最小限にしながら互換性を確保する。 LoRACLRは、各概念に対して明確な凝集表現を強制することにより、高品質でマルチコンセプトな画像合成のための効率的でスケーラブルなモデル合成を可能にする。本結果は,複数の概念を正確にマージし,パーソナライズされた画像生成能力を向上する上で,LoRACLRの有効性を強調した。

関連論文リスト

Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。 Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文参考訳（メタデータ） (2025-05-08T17:58:57Z)
Modular Customization of Diffusion Models via Blockwise-Parameterized Low-Rank Adaptation [73.16975077770765]
コンセプトのスタイリングやマルチコンセプトのカスタマイズといったアプリケーションには、モジュール化が不可欠である。インスタントマージ法は、個々のマージされた概念のアイデンティティ損失と干渉を引き起こすことが多い。個々の概念のアイデンティティを正確に保存しつつ,複数の概念を効率的に組み合わせたインスタントマージ手法であるBlockLoRAを提案する。
論文参考訳（メタデータ） (2025-03-11T16:10:36Z)
A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文参考訳（メタデータ） (2024-10-15T09:41:43Z)
MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [59.00909718832648]
マルチコンセプトカスタマイズのための新しいアプローチであるMC$2$を提案する。視覚的およびテキスト的トークン間の注意重みを適応的に補正することにより、画像領域が関連概念と正確に一致することを保証する。 MC$2$は、即時参照アライメントの観点からトレーニングベースの手法より優れていることを示す実験である。
論文参考訳（メタデータ） (2024-04-08T07:59:04Z)
Contrastive Test-Time Composition of Multiple LoRA Models for Image Generation [44.037664077117945]
Low-Rank Adaptation (LoRA) はパーソナライズのための強力でポピュラーなテクニックとして登場した。既存の手法は、異なるLoRAモデル内の注意機構が重なり合うため、しばしば不足する。テスト時に複数のLoRAモデルのアテンションマップを更新することで,これらの制限に対処する,トレーニング不要なアプローチであるCLoRAを導入する。
論文参考訳（メタデータ） (2024-03-28T18:58:43Z)
LoRA-Composer: Leveraging Low-Rank Adaptation for Multi-Concept Customization in Training-Free Diffusion Models [33.379758040084894]
ドメイン内の課題として、マルチコンセプトのカスタマイズが登場します。既存のアプローチでは、複数のローランド適応(LoRA)の融合行列をトレーニングして、さまざまな概念をひとつのイメージにマージすることが多い。 LoRA-Composerは、複数のLoRAをシームレスに統合するために設計されたトレーニング不要のフレームワークである。
論文参考訳（メタデータ） (2024-03-18T09:58:52Z)
OMG: Occlusion-friendly Personalized Multi-concept Generation in Diffusion Models [47.63060402915307]
OMGは、単一のイメージ内に複数の概念をシームレスに統合するように設計されたフレームワークである。 OMGはマルチコンセプトパーソナライゼーションにおいて優れた性能を示す。 civitai.comのLoRAモデルは直接利用することができる。
論文参考訳（メタデータ） (2024-03-16T17:30:15Z)
Orthogonal Adaptation for Modular Customization of Diffusion Models [39.62438974450659]
我々は、カスタマイズされたモデルを効率的にマージすることを目的として、Modular Customizationと呼ばれる新しい問題に対処する。直交適応(Orthogonal Adaptation, Orthogonal Adaptation)は,微調整時に相互にアクセスできないカスタマイズモデルを支援する手法である。提案手法は単純かつ汎用的であり,モデルアーキテクチャのほぼすべての最適化可能な重みに適用可能である。
論文参考訳（メタデータ） (2023-12-05T02:17:48Z)
Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models [72.67967883658957]
低ランク適応(LoRA)を用いた新しい概念に対して、公共の大規模テキスト・画像拡散モデルを簡単にカスタマイズできる。複数のカスタマイズされた概念を共同でサポートするために複数の概念LoRAを利用することは、課題である。我々は、分散化されたマルチコンセプトカスタマイズの課題に対処するMix-of-Showと呼ばれる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T17:58:16Z)
Multi-Concept Customization of Text-to-Image Diffusion [51.8642043743222]
既存のテキスト・ツー・イメージ・モデルの効率的な拡張法であるCustom Diffusionを提案する。テキスト・ツー・イメージ・コンディショニング機構におけるパラメータの最適化は,新しい概念を表現するのに十分強力であることがわかった。本モデルは,複数の新しい概念のバリエーションを生成し,既存の概念を新しい設定でシームレスに構成する。
論文参考訳（メタデータ） (2022-12-08T18:57:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。