論文の概要: Parameter Efficient Quasi-Orthogonal Fine-Tuning via Givens Rotation
- arxiv url: http://arxiv.org/abs/2404.04316v1
- Date: Fri, 5 Apr 2024 15:28:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 23:37:10.644377
- Title: Parameter Efficient Quasi-Orthogonal Fine-Tuning via Givens Rotation
- Title(参考訳): 幾何回転による擬直交ファインチューニングのパラメータ
- Authors: Xinyu Ma, Xu Chu, Zhibang Yang, Yang Lin, Xin Gao, Junfeng Zhao,
- Abstract要約: 微調整法の代表行は直交微調整(OFT)である。
OFTはパラメータ空間内の角距離を厳格に保存し、事前訓練された知識を保存する。
この問題に対処するため、準ギヴンズ直交微調整(qGOFT)を提案する。
- 参考スコア(独自算出の注目度): 20.47507483613317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasingly powerful performances and enormous scales of Pretrained Language Models (PLMs), promoting parameter efficiency in fine-tuning has become a crucial need for effective and efficient adaptation to various downstream tasks. One representative line of fine-tuning methods is Orthogonal Fine-tuning (OFT), which rigorously preserves the angular distances within the parameter space to preserve the pretrained knowledge. Despite the empirical effectiveness, OFT still suffers low parameter efficiency at $\mathcal{O}(d^2)$ and limited capability of downstream adaptation. Inspired by Givens rotation, in this paper, we proposed quasi-Givens Orthogonal Fine-Tuning (qGOFT) to address the problems. We first use $\mathcal{O}(d)$ Givens rotations to accomplish arbitrary orthogonal transformation in $SO(d)$ with provable equivalence, reducing parameter complexity from $\mathcal{O}(d^2)$ to $\mathcal{O}(d)$. Then we introduce flexible norm and relative angular adjustments under soft orthogonality regularization to enhance the adaptation capability of downstream semantic deviations. Extensive experiments on various tasks and PLMs validate the effectiveness of our methods.
- Abstract(参考訳): より強力な性能とPLM(Pretrained Language Models)の大規模化により、微調整におけるパラメータ効率の促進は、様々な下流タスクに効果的かつ効率的に適応するための重要な必要性となっている。
微調整法の代表行は直交微調整(Orthogonal Fine-tuning, OFT)であり、予め訓練された知識を保存するためにパラメータ空間内の角距離を厳格に保存する。
経験的効果にもかかわらず、OFT は $\mathcal{O}(d^2)$ のパラメータ効率が低く、下流適応の限界がある。
本稿では,ギフト回転にインスパイアされた準ギブンズオルソゴン微調整(qGOFT)を提案し,この問題に対処した。
最初に$\mathcal{O}(d)$ givens 回転を使い、証明可能な同値で$SO(d)$ の任意の直交変換を達成し、パラメータの複雑さを $\mathcal{O}(d^2)$ から $\mathcal{O}(d)$ に還元する。
次に,ソフト直交正規化の下でのフレキシブルノルムと相対角調整を導入し,下流のセマンティック偏差の適応性を高める。
各種タスクおよびPLMに関する広範囲な実験により,本手法の有効性が検証された。
関連論文リスト
- Adaptive Variance Reduction for Stochastic Optimization under Weaker Assumptions [26.543628010637036]
非函数に対して$mathcalO(log T)$の最適収束率を達成する新しい適応還元法を導入する。
また、提案手法を拡張して、合成最適化のために$mathcalO(log T)$と同じ最適率を得る。
論文 参考訳(メタデータ) (2024-06-04T04:39:51Z) - Spectrum-Aware Parameter Efficient Fine-Tuning for Diffusion Models [73.88009808326387]
生成モデルのための新しいスペクトル対応適応フレームワークを提案する。
本手法は,事前学習した重みの特異値とその基底ベクトルを調節する。
本稿では,計算効率と表現能力のバランスをとるスペクトルオーソ分解適応(SODA)を提案する。
論文 参考訳(メタデータ) (2024-05-31T17:43:35Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization [102.92240148504774]
下流タスク適応のための原則的微調整パラダイムである直交微調整(Orthogonal Finetuning, OFT)について検討する。
優れた一般化性を示しているにもかかわらず、OFTはまだかなり多くのトレーニング可能なパラメータを使っている。
我々はこのパラメータ化をOFTに適用し、ORFT(Orthogonal Butterfly)と呼ばれる新しいパラメータ効率の微調整法を開発した。
論文 参考訳(メタデータ) (2023-11-10T18:59:54Z) - $\mathcal{Y}$-Tuning: An Efficient Tuning Paradigm for Large-Scale
Pre-Trained Models via Label Representation Learning [47.742220473129684]
$mathcalY$-tuningは、与えられたタスクで定義されたラベルの密度の高い表現を学び、それらを固定された特徴表現に調整する。
1.6億のパラメータを持つ$textDeBERTa_textXXL$の場合、$mathcalY$-tuningはGLUE Benchmarkの完全な微調整の96%以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-20T13:49:34Z) - STORM+: Fully Adaptive SGD with Momentum for Nonconvex Optimization [74.1615979057429]
本研究では,スムーズな損失関数に対する期待値である非バッチ最適化問題について検討する。
我々の研究は、学習率と運動量パラメータを適応的に設定する新しいアプローチとともに、STORMアルゴリズムの上に構築されている。
論文 参考訳(メタデータ) (2021-11-01T15:43:36Z) - Obtaining Adjustable Regularization for Free via Iterate Averaging [43.75491612671571]
最適化のための正規化は、機械学習の過度な適合を避けるための重要なテクニックである。
我々は、任意の強凸かつ滑らかな対象関数上のSGDの繰り返しを正規化された関数に変換する平均化スキームを確立する。
提案手法は,高速化および事前条件最適化手法にも利用できる。
論文 参考訳(メタデータ) (2020-08-15T15:28:05Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Support recovery and sup-norm convergence rates for sparse pivotal
estimation [79.13844065776928]
高次元スパース回帰では、ピボット推定器は最適な正規化パラメータがノイズレベルに依存しない推定器である。
非滑らかで滑らかな単一タスクとマルチタスク正方形ラッソ型推定器に対するミニマックス超ノルム収束率を示す。
論文 参考訳(メタデータ) (2020-01-15T16:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。