論文の概要: Parameter-Efficient Fine-Tuning with Discrete Fourier Transform
- arxiv url: http://arxiv.org/abs/2405.03003v1
- Date: Sun, 5 May 2024 17:15:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 15:33:57.855910
- Title: Parameter-Efficient Fine-Tuning with Discrete Fourier Transform
- Title(参考訳): 離散フーリエ変換を用いたパラメータ効率の良いファインチューニング
- Authors: Ziqi Gao, Qichao Wang, Aochuan Chen, Zijing Liu, Bingzhe Wu, Liang Chen, Jia Li,
- Abstract要約: ローランク適応(LoRA)は近年、微調整基礎モデルに多くの関心を集めている。
デルタW$を空間領域の行列として扱い、そのスペクトル係数のごく一部しか学習しないフーリエFTを導入する。
提案手法は,様々なタスクにおいてLoRAよりも少ないパラメータで同等あるいは優れた性能を示す。
- 参考スコア(独自算出の注目度): 26.563344030824414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-rank adaptation~(LoRA) has recently gained much interest in fine-tuning foundation models. It effectively reduces the number of trainable parameters by incorporating low-rank matrices $A$ and $B$ to represent the weight change, i.e., $\Delta W=BA$. Despite LoRA's progress, it faces storage challenges when handling extensive customization adaptations or larger base models. In this work, we aim to further compress trainable parameters by enjoying the powerful expressiveness of the Fourier transform. Specifically, we introduce FourierFT, which treats $\Delta W$ as a matrix in the spatial domain and learns only a small fraction of its spectral coefficients. With the trained spectral coefficients, we implement the inverse discrete Fourier transform to recover $\Delta W$. Empirically, our FourierFT method shows comparable or better performance with fewer parameters than LoRA on various tasks, including natural language understanding, natural language generation, instruction tuning, and image classification. For example, when performing instruction tuning on the LLaMA2-7B model, FourierFT surpasses LoRA with only 0.064M trainable parameters, compared to LoRA's 33.5M. Our code is released at \url{https://github.com/Chaos96/fourierft}.
- Abstract(参考訳): ローランク適応~(LoRA)は近年、微調整基礎モデルに多くの関心を集めている。
低ランク行列を$A$と$B$とすることにより、トレーニング可能なパラメータの数を効果的に減らし、重量変化、すなわち$\Delta W=BA$を表現できる。
LoRAの進歩にもかかわらず、大規模なカスタマイズ適応やより大きなベースモデルを扱う場合、ストレージの課題に直面している。
本研究では、フーリエ変換の強力な表現性を享受し、トレーニング可能なパラメータをさらに圧縮することを目的とする。
具体的には、FourierFTを導入し、$\Delta W$を空間領域の行列として扱い、そのスペクトル係数のごく一部しか学習しない。
トレーニングされたスペクトル係数を用いて、逆離散フーリエ変換を実装し、$\Delta W$を復元する。
実験では,自然言語理解,自然言語生成,インストラクションチューニング,画像分類など,LoRAよりも少ないパラメータで同等あるいは優れた性能を示す。
例えば、LLaMA2-7Bモデルで命令チューニングを行う場合、FourierFTはLoRAの33.5Mと比較して、たった0.064Mのトレーニング可能なパラメータでLoRAを上回っている。
私たちのコードは \url{https://github.com/Chaos96/fourierft} でリリースされています。
関連論文リスト
- IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models [68.55148272295916]
IntLoRAを提案し、整数型(INT)低ランクパラメータを用いて効率限界を押し上げ、量子化拡散モデルに適応させる。
IntLoRAには3つの大きな利点がある: (i) 微調整の場合、事前トレーニングされた重みは量子化され、メモリ使用量が減少する (ii) ストレージの場合、事前トレーニングされた重みと低ランクの重みの両方が、ディスクスペースを少なく消費するINT内にある; (iii) 推論の場合、IntLoRA重みは、効率的な整数乗算やビットシフトによって自然に量子化された事前トレーニングされた重みにマージできる。
論文 参考訳(メタデータ) (2024-10-29T05:50:17Z) - Parameter-Efficient Fine-Tuning via Selective Discrete Cosine Transform [10.565509997395504]
本稿では,このフロンティアを推し進めるために,Selective Discrete Cosine Transformation (SDCTFT) を提案する。
その一般的な考え方は、DCTの優れたエネルギー圧縮とデコリレーション特性を活用することである。
4つのベンチマークデータセットの実験では、より優れた精度、計算コストの削減、ストレージ要求の低減が示されている。
論文 参考訳(メタデータ) (2024-10-09T16:07:42Z) - LoRA$^2$ : Multi-Scale Low-Rank Approximations for Fine-Tuning Large Language Models [3.7049613588433497]
Low-Rank Adaptation (LoRA)は、微調整のためのトレーニング可能なパラメータの数を著しく削減する。
LoRAを複数のスケールに拡張し、LoRA$2$と名付けます。
論文 参考訳(メタデータ) (2024-08-13T12:31:30Z) - Parameter-Efficient Fine-Tuning via Circular Convolution [29.442868470645482]
Low-Rank Adaptation (LoRA)は、微調整された大規模な基盤モデルで人気を博している。
本稿では,Circular Convolution Adaptation (C$3$A)を提案する。
論文 参考訳(メタデータ) (2024-07-27T21:12:46Z) - ReFT: Representation Finetuning for Language Models [74.51093640257892]
我々はRepresentation Finetuning(ReFT)手法のファミリーを開発する。
ReFTはフリーズベースモデルで動作し、隠れた表現に対するタスク固有の介入を学ぶ。
我々は,8つの常識推論タスク,4つの算術推論タスク,命令チューニング,GLUEについてLoReFTを紹介する。
論文 参考訳(メタデータ) (2024-04-04T17:00:37Z) - Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance [87.19164603145056]
実験室レベルの資源をトラッキングするための大規模ViTモデルのパワーを明らかにする手法であるLoRATを提案する。
私たちの作業の本質は、推論レイテンシを追加することなく、モデルパラメータの小さなサブセットを微調整するテクニックであるLoRAを適用することです。
我々はPETRの適応のみに基づくアンカーフリーヘッドを設計し、計算オーバーヘッドを少なくして性能を向上する。
論文 参考訳(メタデータ) (2024-03-08T11:41:48Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z) - Learning Set Functions that are Sparse in Non-Orthogonal Fourier Bases [73.53227696624306]
フーリエスパース集合関数を学習するための新しいアルゴリズム群を提案する。
Walsh-Hadamard変換に焦点をあてた他の研究とは対照的に、我々の新しいアルゴリズムは最近導入された非直交フーリエ変換で機能する。
いくつかの実世界のアプリケーションで有効性を示す。
論文 参考訳(メタデータ) (2020-10-01T14:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。