論文の概要: FouRA: Fourier Low Rank Adaptation
- arxiv url: http://arxiv.org/abs/2406.08798v1
- Date: Thu, 13 Jun 2024 04:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 21:28:25.762816
- Title: FouRA: Fourier Low Rank Adaptation
- Title(参考訳): 布楽(ふうら):四級下級順応
- Authors: Shubhankar Borse, Shreya Kadambi, Nilesh Prasad Pandey, Kartikeya Bhardwaj, Viswanath Ganapathy, Sweta Priyadarshi, Risheek Garrepalli, Rafael Esteves, Munawar Hayat, Fatih Porikli,
- Abstract要約: FouRAはフーリエ領域の射影を学習する新しい低ランク法である。
FouRAはデータの複製や分散の崩壊に関わる問題をうまく解決する。
また、GLUEベンチマークで言語タスクの利点を示す。
- 参考スコア(独自算出の注目度): 47.485305992204935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Low-Rank Adaptation (LoRA) has proven beneficial for efficiently fine-tuning large models, LoRA fine-tuned text-to-image diffusion models lack diversity in the generated images, as the model tends to copy data from the observed training samples. This effect becomes more pronounced at higher values of adapter strength and for adapters with higher ranks which are fine-tuned on smaller datasets. To address these challenges, we present FouRA, a novel low-rank method that learns projections in the Fourier domain along with learning a flexible input-dependent adapter rank selection strategy. Through extensive experiments and analysis, we show that FouRA successfully solves the problems related to data copying and distribution collapse while significantly improving the generated image quality. We demonstrate that FouRA enhances the generalization of fine-tuned models thanks to its adaptive rank selection. We further show that the learned projections in the frequency domain are decorrelated and prove effective when merging multiple adapters. While FouRA is motivated for vision tasks, we also demonstrate its merits for language tasks on the GLUE benchmark.
- Abstract(参考訳): Low-Rank Adaptation (LoRA) は大規模モデルを効率的に微調整するのに有用であることが証明されているが、LoRAの微調整されたテキスト・ツー・イメージ拡散モデルは、観察されたトレーニングサンプルからデータをコピーする傾向にあるため、生成された画像の多様性を欠いている。
この効果は、より高いアダプタ強度の値と、より小さなデータセットで微調整されたより高いランクのアダプタでより顕著になる。
これらの課題に対処するため、FouRAは、フレキシブルな入力依存型アダプタランク選択戦略の学習とともに、フーリエ領域におけるプロジェクションを学習する新しい低ランク手法である。
広範にわたる実験と解析により、FouRAは、生成した画像の品質を著しく向上させながら、データの複写や分布の崩壊に関わる問題の解決に成功していることを示す。
我々はFouRAが適応階数選択により微調整モデルの一般化を促進することを示した。
さらに、周波数領域における学習されたプロジェクションは非相関であり、複数のアダプタをマージする場合に有効であることを示す。
FouRAはビジョンタスクをモチベーションとしているが、GLUEベンチマークでは言語タスクのメリットも示している。
関連論文リスト
- Data-Free Federated Class Incremental Learning with Diffusion-Based Generative Memory [27.651921957220004]
拡散型生成メモリ(DFedDGM)を用いた新しいデータフリーフェデレーションクラスインクリメンタルラーニングフレームワークを提案する。
FLにおける一般の非IID問題を軽減するために拡散モデルの訓練を支援するために,新しいバランスの取れたサンプルを設計する。
また、情報理論の観点からエントロピーに基づくサンプルフィルタリング手法を導入し、生成サンプルの品質を向上させる。
論文 参考訳(メタデータ) (2024-05-22T20:59:18Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Misalignment-Robust Frequency Distribution Loss for Image Transformation [51.0462138717502]
本稿では,画像強調や超解像といった深層学習に基づく画像変換手法における共通の課題に対処することを目的とする。
本稿では、周波数領域内における分布距離を計算するための、新しいシンプルな周波数分布損失(FDL)を提案する。
本手法は,周波数領域におけるグローバル情報の思慮深い活用により,トレーニング制約として実証的に有効であることが実証された。
論文 参考訳(メタデータ) (2024-02-28T09:27:41Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - X-Transfer: A Transfer Learning-Based Framework for GAN-Generated Fake
Image Detection [33.31312811230408]
顔置換などの偽画像を生成するためにGANを誤用することは、重大なセキュリティ上の懸念を引き起こす。
本稿では,新しい画像検出アルゴリズムであるX-Transferを提案する。
インターリーブされた並列勾配伝送を利用する2つのニューラルネットワークを利用することで、トランスファーラーニングを強化する。
論文 参考訳(メタデータ) (2023-10-07T01:23:49Z) - Breaking Through the Haze: An Advanced Non-Homogeneous Dehazing Method
based on Fast Fourier Convolution and ConvNeXt [14.917290578644424]
ヘイズは通常、低コントラスト、色の変化、構造歪みで劣化した画像につながる。
本稿では、2次元離散ウェーブレット変換(DWT)、高速フーリエ畳み込み(FFC)残差ブロック、事前訓練されたConvNeXtモデルを活用する2つの分岐ネットワークを提案する。
我々のモデルは、グローバルな文脈情報を効果的に探索し、知覚品質の高い画像を生成することができる。
論文 参考訳(メタデータ) (2023-05-08T02:59:02Z) - Multimodal Data Augmentation for Image Captioning using Diffusion Models [12.221685807426264]
本研究では,Stable Diffusionと呼ばれるテキスト・ツー・イメージ・モデルを利用してトレーニングセットを拡張するデータ拡張手法を提案する。
MS COCOデータセットの実験は、いくつかのベンチマーク手法に対する我々のアプローチの利点を実証している。
生成されたデータを意図的にフィルタリングした後、トレーニング効率及び有効性に関するさらなる改善が得られる。
論文 参考訳(メタデータ) (2023-05-03T01:57:33Z) - Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。
本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:07:50Z) - Feature Quantization Improves GAN Training [126.02828112121874]
識別器の特徴量子化(FQ)は、真と偽のデータの両方を共有離散空間に埋め込む。
本手法は,既存のGANモデルに容易に接続でき,訓練における計算オーバーヘッドがほとんどない。
論文 参考訳(メタデータ) (2020-04-05T04:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。