Fugu-MT 論文翻訳(概要): SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models

論文の概要: SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models

arxiv url: http://arxiv.org/abs/2409.00055v5
Date: Wed, 20 Nov 2024 07:08:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.856264
Title: SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models
Title（参考訳）: SORSA:大言語モデルの特異値と正規化正規化特異ベクトル適応
Authors: Yang Cao,
Abstract要約: 我々は,新しいPEFT法であるSORSA(Singular Values and Orthonormal Regularized Singular Vectors Adaptation)を提案する。各SORSAアダプタは、トレーニング可能な主特異重量$W_p = U_p textdiag(S_p) Vtop_p$と、凍結された残留重量$W_r = U_r textdiag(S_r) Vtop_r$の2つの主要部分からなる。
参考スコア（独自算出の注目度）: 5.573502364188814
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In this paper, we propose Singular Values and Orthonormal Regularized Singular Vectors Adaptation, or SORSA, a novel PEFT method. Each SORSA adapter consists of two main parts: trainable principal singular weights $W_p = U_p \text{diag}(S_p) V^\top_p$, and frozen residual weights $W_r = U_r \text{diag}(S_r) V^\top_r$. These parts are initialized by performing singular value decomposition (SVD) on pre-trained weights. Moreover, we implement and analyze an orthonormal regularizer, which we prove could decrease the condition number of $W_p$ and make the optimization more efficient. SORSA adapters could be merged during inference, thus eliminating any inference latency. We also introduce a method to analyze the variation of the parameters by performing SVD and discuss and analyze SORSA's superiority in minimizing the alteration in the SVD aspect. After all, SORSA shows a faster convergence than LoRA and PiSSA in our experiments. On the GSM-8K benchmark, Llama 2 7B adapted using SORSA achieved 56.03% accuracy, surpassing LoRA (42.30%), AdaLoRA (47.30%), Full FT (49.05%), and PiSSA (53.07%). On the MATH benchmark, SORSA achieved 10.36% accuracy, outperforming LoRA (5.50%), AdaLoRA (6.48%), Full FT (7.22%), and PiSSA (7.44%). We conclude that SORSA offers a new perspective on parameter-efficient fine-tuning, demonstrating remarkable performance.
Abstract（参考訳）: 本稿では,新しいPEFT法であるSORSA(Singular Values and Orthonormal Regularized Singular Vectors Adaptation)を提案する。各SORSAアダプタは、トレーニング可能な主特異量 $W_p = U_p \text{diag}(S_p) V^\top_p$ と、凍結された残量 $W_r = U_r \text{diag}(S_r) V^\top_r$ の2つの主要部分から構成される。これらの部分は、事前訓練された重みに対して特異値分解(SVD)を実行することで初期化される。さらに,正規正規化正規化器を実装,解析することで,条件数$W_p$を削減し,最適化をより効率的にすることができることを示した。 SORSAアダプタは推論中にマージすることができ、推論遅延を排除できる。また,パラメータの変動をSVDで解析し,SORSAの優位性を議論し,SVDにおける変化を最小限に抑える手法を提案する。結局のところ、SORSAは我々の実験においてLoRAやPiSSAよりも早く収束している。 GSM-8Kベンチマークでは、SORSAを使用したLlama 2 7Bの精度は56.03%で、LoRA (42.30%)、AdaLoRA (47.30%)、全FT (49.05%)、PiSSA (53.07%)を上回った。 MATHベンチマークでは、SORSAは10.36%の精度でLoRA(5.50%)、AdaLoRA(6.48%)、全FT(7.22%)、PiSSA(7.44%)を上回った。我々はSORSAがパラメータ効率の良い微調整の新しい視点を提供し、優れた性能を示すと結論付けた。

関連論文リスト

SpinSVAR: Estimating Structural Vector Autoregression Assuming Sparse Input [9.548703593014107]
本研究では,スパース入力仮定の下で時系列データから構造ベクトル自己回帰を推定する新しい手法であるSpinSvarを紹介する。我々は、入力を独立なラプラス変数としてモデル化し、最小絶対誤差回帰に基づいて、間隔を強制し、最大可能性推定器(MLE)を出力する。 S&P 500データに適用すると、S&P500はセクターごとに株をクラスタリングし、主要な価格変動に関連する重要な構造的ショックを特定する。
論文参考訳（メタデータ） (2025-01-06T16:48:30Z)
LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文参考訳（メタデータ） (2024-10-27T22:57:12Z)
PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models [23.890454137522774]
主特異値と特異ベクトル適応(PiSSA)を導入する。 PiSSAはLoRAと同じアーキテクチャを共有しているが、アダプタ行列を$A$と$B$で初期化し、元の行列の主成分は$W$である。 LoRAと比較すると、PiSSAは主コンポーネントを更新し、"残留"部分を凍結することで、より高速な収束と性能の向上を実現している。
論文参考訳（メタデータ） (2024-04-03T15:06:43Z)
Adaptive Stochastic Gradient Descent for Fast and Communication-Efficient Distributed Learning [33.590006101071765]
マスタが分散降下(SGD)アルゴリズムを$n$ワーカー上で実行したい場合について検討する。本研究では,分散SGDの適応バージョンが非適応実装と比較して少ない時間で低い誤差値に達することを示す。
論文参考訳（メタデータ） (2022-08-04T10:57:25Z)
Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文参考訳（メタデータ） (2022-02-02T11:58:56Z)
A contextual analysis of multi-layer perceptron models in classifying hand-written digits and letters: limited resources [0.0]
我々は,前処理や特徴抽出を行わずに,終端から終端までのバニラニューラルネットワーク(MLP)アプローチを純粋に検証した。基礎的なデータマイニング操作は,計算時間の観点からモデルの性能を著しく向上させることができることを示す。
論文参考訳（メタデータ） (2021-07-05T04:30:37Z)
VSAC: Efficient and Accurate Estimator for H and F [68.65610177368617]
VSACはRANSAC型頑健な推定器であり、多くの新奇性がある。従来のすべてのプロセッサよりも大幅に高速で、CPU上では平均1-2msで動作する。現在最も正確な2次元幾何学推定器である MAGSAC++ と同等の精度で2桁高速である。
論文参考訳（メタデータ） (2021-06-18T17:04:57Z)
Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。 EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文参考訳（メタデータ） (2021-01-20T06:18:38Z)
Computationally and Statistically Efficient Truncated Regression [36.3677715543994]
計算的かつ統計的に効率的な線形回帰の古典的問題に対する推定器を提供する。提案手法では, トランキャット標本の負の対数類似度に代わることなく, プロジェクテッド・Descent Gradient (PSGD) を用いて推定する。本稿では,SGDが単一層ニューラルネットワークの雑音活性化関数のパラメータを学習することを示す。
論文参考訳（メタデータ） (2020-10-22T19:31:30Z)
AdamP: Slowing Down the Slowdown for Momentum Optimizers on Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文参考訳（メタデータ） (2020-06-15T08:35:15Z)
ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。 ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文参考訳（メタデータ） (2020-06-01T05:00:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。