論文の概要: LoRA.rar: Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation
- arxiv url: http://arxiv.org/abs/2412.05148v1
- Date: Fri, 06 Dec 2024 16:04:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:57:56.267347
- Title: LoRA.rar: Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation
- Title(参考訳): LoRA.rar: サブジェクトスタイル条件付き画像生成のためのハイパーネットによるLoRAのマージ学習
- Authors: Donald Shenaj, Ondrej Bohdal, Mete Ozay, Pietro Zanuttigh, Umberto Michieli,
- Abstract要約: 画像品質を向上し、マージ処理において4000ドルを超える驚くべきスピードアップを実現する方法であるLoRA.rarを紹介する。
LoRA.rarは、様々なコンテンツスタイルのLoRAペアのハイパーネットワークを事前トレーニングし、新しい、目に見えないコンテンツスタイルのペアに一般化する効率的なマージ戦略を学ぶ。
本手法は,MLLMの評価と人的評価によって評価され,内容とスタイルの忠実さの両面で技術の現状を著しく上回っている。
- 参考スコア(独自算出の注目度): 28.098287135605364
- License:
- Abstract: Recent advancements in image generation models have enabled personalized image creation with both user-defined subjects (content) and styles. Prior works achieved personalization by merging corresponding low-rank adaptation parameters (LoRAs) through optimization-based methods, which are computationally demanding and unsuitable for real-time use on resource-constrained devices like smartphones. To address this, we introduce LoRA.rar, a method that not only improves image quality but also achieves a remarkable speedup of over $4000\times$ in the merging process. LoRA.rar pre-trains a hypernetwork on a diverse set of content-style LoRA pairs, learning an efficient merging strategy that generalizes to new, unseen content-style pairs, enabling fast, high-quality personalization. Moreover, we identify limitations in existing evaluation metrics for content-style quality and propose a new protocol using multimodal large language models (MLLM) for more accurate assessment. Our method significantly outperforms the current state of the art in both content and style fidelity, as validated by MLLM assessments and human evaluations.
- Abstract(参考訳): 画像生成モデルの最近の進歩により、ユーザ定義の主題(コンテンツ)とスタイルの両方で、パーソナライズされた画像作成が可能になった。
従来の研究は、スマートフォンなどのリソース制約のあるデバイスでリアルタイムに使用するのに、計算的に要求され、適さない最適化手法によって、対応するローランク適応パラメータ(LoRA)をマージすることでパーソナライズを実現した。
この問題を解決するために,画像品質を向上するだけでなく,マージングプロセスにおいて4000ドル以上のスピードアップを実現するLoRA.rarを導入する。
LoRA.rarは、様々なコンテンツスタイルのLoRAペアのハイパーネットワークを事前トレーニングし、新しい、目に見えないコンテンツスタイルのペアに一般化し、高速で高品質なパーソナライズを可能にする効率的なマージ戦略を学ぶ。
さらに,コンテンツスタイルの品質評価基準の制約を特定し,より正確な評価のためにMLLM(Multimodal Large Language Model)を用いた新しいプロトコルを提案する。
本手法は,MLLMの評価と人的評価により,コンテンツとスタイルの忠実さの両面において,現状の最先端を著しく上回っている。
関連論文リスト
- IterIS: Iterative Inference-Solving Alignment for LoRA Merging [14.263218227928729]
低ランク適応(LoRA)は、特定の下流タスクのために様々な領域にまたがる大きなモデルを微調整するために広く使われている。
LoRAマージは、データのプライバシを維持しながら複数のLoRAを統一アダプタに結合することで、効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-11-21T19:04:02Z) - UIR-LoRA: Achieving Universal Image Restoration through Multiple Low-Rank Adaptation [50.27688690379488]
既存の統合手法は、マルチタスク学習問題として、多重劣化画像復元を扱う。
本稿では,複数のローランクアダプタ(LoRA)をベースとした汎用画像復元フレームワークを提案する。
本フレームワークは, 学習前の生成モデルを多段劣化復元のための共有コンポーネントとして利用し, 特定の劣化画像復元タスクに転送する。
論文 参考訳(メタデータ) (2024-09-30T11:16:56Z) - DiffLoRA: Generating Personalized Low-Rank Adaptation Weights with Diffusion [43.55179971287028]
DiffLoRAは、拡散モデルをハイパーネットワークとして活用し、パーソナライズされた低ランク適応重みを予測できる効率的な手法である。
これらのLoRA重みをオフザシェルのテキスト・ツー・イメージモデルに組み込むことで、推論中にゼロショットのパーソナライズが可能になる。
本稿では、DiffLoRAのトレーニングプロセスを容易にするために、新しいアイデンティティ指向のLoRA重み付けパイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-13T09:00:35Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - CLoRA: A Contrastive Approach to Compose Multiple LoRA Models [44.037664077117945]
Low-Rank Adaptations (LoRA) は画像生成の分野で強力で一般的な技術として登場した。
CLoRAは、複数の概念をシームレスにブレンドして、さまざまな概念を1つのイメージでキャプチャする問題に対処する。
本手法は,LoRAの特性を反映した合成画像の作成を可能にする。
論文 参考訳(メタデータ) (2024-03-28T18:58:43Z) - Implicit Style-Content Separation using B-LoRA [61.664293840163865]
一つの画像のスタイルとコンテンツコンポーネントを暗黙的に分離する手法であるB-LoRAを紹介する。
SDXLのアーキテクチャをLoRAと組み合わせて解析することにより、2つのブロックのLoRA重みを共同で学習することで、スタイル・コンテント分離を実現する。
論文 参考訳(メタデータ) (2024-03-21T17:20:21Z) - Multi-LoRA Composition for Image Generation [107.83002438126832]
復号化中心の観点から,マルチロラ合成について検討する。
我々は,各聴覚ステップで異なるLoRAを交互に切り替えるLoRA Switchと,より密着的な画像合成を導くためにすべてのLoRAを同時に組み込むLoRA Compositeの2つのトレーニングフリー手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T18:59:18Z) - ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs [56.85106417530364]
低ランク適応(LoRA)は概念駆動型パーソナライゼーションを実現するためのパラメータ効率のよい方法として提案されている。
我々は、独立に訓練されたスタイルと主題のLoRAを安価かつ効果的にマージするZipLoRAを提案する。
実験により、ZipLoRAは主観とスタイルの忠実さのベースラインよりも有意義な改善を施した魅力的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-22T18:59:36Z) - Continual Diffusion: Continual Customization of Text-to-Image Diffusion with C-LoRA [64.10981296843609]
近年のテクスト・ツー・イメージ・モデルの最先端のカスタマイズは,新しい概念が次々に現れると,破滅的な忘れ込みに悩まされることが示されている。
安定拡散モデルのクロスアテンション層における自己規則化低ランク適応を連続的に行う新しい手法であるC-LoRAを提案する。
C-LoRAは、提案したテキスト・ツー・イメージの連続的なカスタマイズ設定のベースラインよりも優れるだけでなく、画像分類のためのリハーサル不要な連続的な学習設定において、新しい最先端の学習を実現することを示します。
論文 参考訳(メタデータ) (2023-04-12T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。