論文の概要: A LoRA is Worth a Thousand Pictures
- arxiv url: http://arxiv.org/abs/2412.12048v1
- Date: Mon, 16 Dec 2024 18:18:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:56:36.277078
- Title: A LoRA is Worth a Thousand Pictures
- Title(参考訳): LoRAは何千枚もの絵の価値がある
- Authors: Chenxi Liu, Towaki Takikawa, Alec Jacobson,
- Abstract要約: 低ランク適応(LoRA)は、最小限のデータと計算を用いてアーティストのスタイルや主題を再現することができる。
画像生成やトレーニングセットの知識を必要とせずに,LoRA重みだけで効果的なスタイル記述子として機能することを示す。
ゼロショットLORAファインチューニングやモデル属性など,将来的な応用の可能性について論じる。
- 参考スコア(独自算出の注目度): 28.928964530616593
- License:
- Abstract: Recent advances in diffusion models and parameter-efficient fine-tuning (PEFT) have made text-to-image generation and customization widely accessible, with Low Rank Adaptation (LoRA) able to replicate an artist's style or subject using minimal data and computation. In this paper, we examine the relationship between LoRA weights and artistic styles, demonstrating that LoRA weights alone can serve as an effective descriptor of style, without the need for additional image generation or knowledge of the original training set. Our findings show that LoRA weights yield better performance in clustering of artistic styles compared to traditional pre-trained features, such as CLIP and DINO, with strong structural similarities between LoRA-based and conventional image-based embeddings observed both qualitatively and quantitatively. We identify various retrieval scenarios for the growing collection of customized models and show that our approach enables more accurate retrieval in real-world settings where knowledge of the training images is unavailable and additional generation is required. We conclude with a discussion on potential future applications, such as zero-shot LoRA fine-tuning and model attribution.
- Abstract(参考訳): 近年の拡散モデルとパラメータ効率の微調整(PEFT)により、テキスト・画像生成とカスタマイズが広く普及し、ローランク適応(LoRA)は最小限のデータと計算を用いてアーティストのスタイルや主題を再現できるようになっている。
本稿では,LoRA重みと芸術的スタイルの関係について検討し,LoRA重みだけで,画像生成やトレーニングセットの知識を必要とせず,効果的なスタイル記述として機能できることを実証する。
以上の結果から,LORAの重み付けは,CLIPやDINOといった従来の訓練済みの特徴と比較して,定性的にも定量的にも,LoRAベースと従来の画像ベース埋め込みとの構造的類似性が強く,芸術的スタイルのクラスタリングにおいて優れた性能を示すことが示唆された。
カスタマイズされたモデルの収集のための様々な検索シナリオを特定し、トレーニング画像の知識が得られず、さらなる生成が必要な実環境において、より正確な検索を可能にすることを示す。
ゼロショットLORAファインチューニングやモデル属性など,将来的な応用の可能性について論じる。
関連論文リスト
- LoRA of Change: Learning to Generate LoRA for the Editing Instruction from A Single Before-After Image Pair [116.48684498656871]
視覚的指示を用いた画像編集のためのLoRA of Change (LoC) フレームワークを提案する。
我々は、命令固有のLoRAを学習し、事前のイメージペアで「変更」を符号化し、モデルの解釈可能性と再利用性を高める。
本モデルでは,ユーザ意図に整合した高品質な画像を生成し,現実世界の視覚的指示の幅広い範囲をサポートする。
論文 参考訳(メタデータ) (2024-11-28T13:55:06Z) - DiffLoRA: Generating Personalized Low-Rank Adaptation Weights with Diffusion [43.55179971287028]
DiffLoRAは、拡散モデルをハイパーネットワークとして活用し、パーソナライズされた低ランク適応重みを予測できる効率的な手法である。
これらのLoRA重みをオフザシェルのテキスト・ツー・イメージモデルに組み込むことで、推論中にゼロショットのパーソナライズが可能になる。
本稿では、DiffLoRAのトレーニングプロセスを容易にするために、新しいアイデンティティ指向のLoRA重み付けパイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-13T09:00:35Z) - Dataset Size Recovery from LoRA Weights [41.031813850749174]
DSiReは、モデルを微調整するために使用される画像の数を復元する方法である。
新しいベンチマークであるLoRA-WiSEをリリースし、2000以上のLoRAファインチューニングモデルから25,000以上のウェイトスナップショットを作成しました。
論文 参考訳(メタデータ) (2024-06-27T17:59:53Z) - MuseumMaker: Continual Style Customization without Catastrophic Forgetting [50.12727620780213]
本研究では,一組のカスタマイズスタイルを終末的に追従することで,画像の合成を可能にする方法であるMuseumMakerを提案する。
新しいカスタマイズスタイルに直面すると、新しい画像生成のためのトレーニングデータのスタイルを抽出し学習するスタイル蒸留損失モジュールを開発する。
これは、新しい訓練画像の内容による学習バイアスを最小限に抑え、少数ショット画像によって引き起こされる破滅的な過適合問題に対処することができる。
論文 参考訳(メタデータ) (2024-04-25T13:51:38Z) - CLoRA: A Contrastive Approach to Compose Multiple LoRA Models [44.037664077117945]
Low-Rank Adaptations (LoRA) は画像生成の分野で強力で一般的な技術として登場した。
CLoRAは、複数の概念をシームレスにブレンドして、さまざまな概念を1つのイメージでキャプチャする問題に対処する。
本手法は,LoRAの特性を反映した合成画像の作成を可能にする。
論文 参考訳(メタデータ) (2024-03-28T18:58:43Z) - Implicit Style-Content Separation using B-LoRA [61.664293840163865]
一つの画像のスタイルとコンテンツコンポーネントを暗黙的に分離する手法であるB-LoRAを紹介する。
SDXLのアーキテクチャをLoRAと組み合わせて解析することにより、2つのブロックのLoRA重みを共同で学習することで、スタイル・コンテント分離を実現する。
論文 参考訳(メタデータ) (2024-03-21T17:20:21Z) - Multi-LoRA Composition for Image Generation [107.83002438126832]
復号化中心の観点から,マルチロラ合成について検討する。
我々は,各聴覚ステップで異なるLoRAを交互に切り替えるLoRA Switchと,より密着的な画像合成を導くためにすべてのLoRAを同時に組み込むLoRA Compositeの2つのトレーニングフリー手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T18:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。