論文の概要: T-LoRA: Single Image Diffusion Model Customization Without Overfitting
- arxiv url: http://arxiv.org/abs/2507.05964v1
- Date: Tue, 08 Jul 2025 13:14:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.129991
- Title: T-LoRA: Single Image Diffusion Model Customization Without Overfitting
- Title(参考訳): T-LoRA: オーバーフィットのない単一画像拡散モデルカスタマイズ
- Authors: Vera Soboleva, Aibek Alanov, Andrey Kuznetsov, Konstantin Sobolev,
- Abstract要約: 本稿では,単一の概念イメージを用いて拡散モデルを適用する上で,最も困難な課題に対処する。
拡散モデルパーソナライズに特化したタイムステップ依存型低ランク適応フレームワークであるT-LoRAを紹介する。
高い拡散時間ステップは、低い時間ステップよりも過度に適合する傾向を示し、時間ステップに敏感な微調整戦略を必要とする。
- 参考スコア(独自算出の注目度): 2.424910201171407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While diffusion model fine-tuning offers a powerful approach for customizing pre-trained models to generate specific objects, it frequently suffers from overfitting when training samples are limited, compromising both generalization capability and output diversity. This paper tackles the challenging yet most impactful task of adapting a diffusion model using just a single concept image, as single-image customization holds the greatest practical potential. We introduce T-LoRA, a Timestep-Dependent Low-Rank Adaptation framework specifically designed for diffusion model personalization. In our work we show that higher diffusion timesteps are more prone to overfitting than lower ones, necessitating a timestep-sensitive fine-tuning strategy. T-LoRA incorporates two key innovations: (1) a dynamic fine-tuning strategy that adjusts rank-constrained updates based on diffusion timesteps, and (2) a weight parametrization technique that ensures independence between adapter components through orthogonal initialization. Extensive experiments show that T-LoRA and its individual components outperform standard LoRA and other diffusion model personalization techniques. They achieve a superior balance between concept fidelity and text alignment, highlighting the potential of T-LoRA in data-limited and resource-constrained scenarios. Code is available at https://github.com/ControlGenAI/T-LoRA.
- Abstract(参考訳): 拡散モデルファインチューニングは、訓練済みモデルをカスタマイズして特定のオブジェクトを生成するための強力なアプローチを提供するが、トレーニングサンプルが制限された場合、しばしば過度な適合に悩まされ、一般化能力と出力の多様性の両方を損なう。
本稿では,単一イメージのカスタマイズが最大の実用的可能性を秘めているため,単一の概念イメージを用いて拡散モデルを適用する上で最も困難な課題に取り組む。
拡散モデルパーソナライズに特化したタイムステップ依存型低ランク適応フレームワークであるT-LoRAを紹介する。
本研究では,高拡散時間ステップは低い時間よりも過度に適合する傾向があり,時間に敏感な微調整戦略を必要とすることを示す。
T-LoRAは,(1)拡散時間ステップに基づいてランク制約付き更新を調整する動的微調整戦略,(2)直交初期化によるアダプタコンポーネント間の独立性を保証する重みパラメトリゼーション技術,の2つの革新を取り入れている。
大規模な実験により、T-LoRAとその個々のコンポーネントは標準のLoRAおよび他の拡散モデルパーソナライゼーション技術より優れていることが示された。
概念の忠実さとテキストアライメントのバランスが良く、データ制限とリソース制約のあるシナリオにおけるT-LoRAの可能性を強調している。
コードはhttps://github.com/ControlGenAI/T-LoRAで公開されている。
関連論文リスト
- Zero-Shot Adaptation of Parameter-Efficient Fine-Tuning in Diffusion Models [48.22550575107633]
テキストと画像の拡散モデルにおいてパラメータ効率の良い微調整をゼロショットで適用できるProLoRAを導入する。
ProLoRAは、トレーニングデータを追加せずに、ソースからターゲットモデルに事前訓練された低ランク調整を転送する。
論文 参考訳(メタデータ) (2025-05-29T20:37:04Z) - LoRA Diffusion: Zero-Shot LoRA Synthesis for Diffusion Model Personalization [0.0]
Low-Rank Adaptation (LoRA) や他のパラメータ効率のよい微細チューニング (PEFT) 手法は、テキスト・ツー・イメージ・モデルをパーソナライズするための低メモリ、ストレージ効率のソリューションを提供する。
ハイパーネットワークモデルをトレーニングしてLoRA重みを生成することで、特定のドメインに対する競合品質を実現することができることを示す。
論文 参考訳(メタデータ) (2024-12-03T10:17:15Z) - LoRA vs Full Fine-tuning: An Illusion of Equivalence [76.11938177294178]
我々は,Low-Rank Adaptation (LoRA) とフルファインタニングによる事前学習モデルについて検討する。
特異値分解が全く異なる構造を示すLoRAおよび完全微調整収量行列が得られた。
我々は、LoRAが完全な微調整を忘れてはならないという発見を拡張し、その忘れ物は侵入者次元に大きく局所化されていることを発見した。
論文 参考訳(メタデータ) (2024-10-28T17:14:01Z) - AutoLoRA: AutoGuidance Meets Low-Rank Adaptation for Diffusion Models [0.9514837871243403]
低ランク適応(LoRA)は条件付き生成拡散モデルに適用できる微調整技術である。
本稿では,LoRAアプローチを微調整した拡散モデルのための新しいガイダンス手法であるAutoLoRAを紹介する。
論文 参考訳(メタデータ) (2024-10-04T21:57:11Z) - DiffLoRA: Generating Personalized Low-Rank Adaptation Weights with Diffusion [43.55179971287028]
DiffLoRAは、拡散モデルをハイパーネットワークとして活用し、パーソナライズされた低ランク適応重みを予測できる効率的な手法である。
これらのLoRA重みをオフザシェルのテキスト・ツー・イメージモデルに組み込むことで、推論中にゼロショットのパーソナライズが可能になる。
本稿では、DiffLoRAのトレーニングプロセスを容易にするために、新しいアイデンティティ指向のLoRA重み付けパイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-13T09:00:35Z) - PaRa: Personalizing Text-to-Image Diffusion via Parameter Rank Reduction [38.424899483761656]
PaRaはT2Iモデルパーソナライズのための効率的かつ効率的なランク削減手法である。
我々のデザインは、新しい概念へのT2Iモデルの使用は、小さな世代空間を意味するという事実に動機づけられている。
そこで,PaRaは単一/複数オブジェクト生成における既存のファインタニング手法の利点と,単一画像編集の利点を両立することを示す。
論文 参考訳(メタデータ) (2024-06-09T04:51:51Z) - E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - FullLoRA: Efficiently Boosting the Robustness of Pretrained Vision Transformers [72.83770102062141]
Vision Transformer (ViT) モデルは、様々なコンピュータビジョンタスクにおいて徐々に主流になりつつある。
既存の大きなモデルは、トレーニング中のパフォーマンスを優先する傾向があり、ロバストさを無視する可能性がある。
従来のLoRAモジュールよりも前に学習可能なレイヤ正規化を取り入れた新しいLNLoRAモジュールを開発した。
学習可能なLNLoRAモジュールをViTモデルの主要コンポーネントに組み込むことにより,FullLoRAフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-03T14:08:39Z) - Continual Diffusion: Continual Customization of Text-to-Image Diffusion with C-LoRA [64.10981296843609]
近年のテクスト・ツー・イメージ・モデルの最先端のカスタマイズは,新しい概念が次々に現れると,破滅的な忘れ込みに悩まされることが示されている。
安定拡散モデルのクロスアテンション層における自己規則化低ランク適応を連続的に行う新しい手法であるC-LoRAを提案する。
C-LoRAは、提案したテキスト・ツー・イメージの連続的なカスタマイズ設定のベースラインよりも優れるだけでなく、画像分類のためのリハーサル不要な連続的な学習設定において、新しい最先端の学習を実現することを示します。
論文 参考訳(メタデータ) (2023-04-12T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。