Fugu-MT 論文翻訳(概要): SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models

論文の概要: SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models

arxiv url: http://arxiv.org/abs/2409.00055v4
Date: Wed, 2 Oct 2024 19:41:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 03:57:28.068702
Title: SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models
Title（参考訳）: SORSA:大言語モデルの特異値と正規化正規化特異ベクトル適応
Authors: Yang Cao,
Abstract要約: SORSA(Singular Values and Orthonormalized Singular Vectors Adaptation)は, PEFT法の一種である。本稿では,パラメータの変動を特異値分解(SVD)によって解析し,SORSAのSVD面における変化を最小限に抑える上での優位性を議論し,分析する手法を提案する。我々はSORSAがパラメータ効率の良い微調整の新しい視点を提供し、優れた性能を示すと結論付けた。
参考スコア（独自算出の注目度）: 5.573502364188814
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The rapid advancement in large language models (LLMs) comes with a significant increase in their parameter size, presenting challenges for adaptation and fine-tuning. Parameter-efficient fine-tuning (PEFT) methods are widely used to adapt LLMs for downstream tasks efficiently. In this paper, we propose Singular Values and Orthonormal Regularized Singular Vectors Adaptation, or SORSA, a novel PEFT method. We introduce a method to analyze the variation of the parameters by performing singular value decomposition (SVD) and discuss and analyze SORSA's superiority in minimizing the alteration in the SVD aspect. Each SORSA adapter consists of two main parts: trainable principal singular weights $W_p = U_p \text{diag}(S_p) V^\top_p$, and frozen residual weights $W_r = U_r \text{diag}(S_r) V^\top_r$. These parts are initialized by performing SVD on pre-trained weights. Moreover, we implement and analyze an orthonormal regularizer, which we prove could decrease the condition number of $W_p$ and allows the optimization to be more efficient. SORSA adapters could be merged during inference, thus eliminating any inference latency. After all, SORSA shows a faster convergence than PiSSA and LoRA in our experiments. On the GSM-8K benchmark, Llama 2 7B adapted using SORSA achieved 56.03% accuracy, surpassing LoRA (42.30%), Full FT (49.05%), and PiSSA (53.07%). On the MATH benchmark, SORSA achieved 10.36% accuracy, outperforming LoRA (5.50%), Full FT (7.22%), and PiSSA (7.44%). We conclude that SORSA offers a new perspective on parameter-efficient fine-tuning, demonstrating remarkable performance. The code is available at https://github.com/Gunale0926/SORSA.
Abstract（参考訳）: 大規模言語モデル(LLM)の急速な進歩は、パラメータサイズが大幅に増加し、適応と微調整の課題が提示される。パラメータ効率のよい微調整(PEFT)法は、下流タスクにLLMを効率的に適応するために広く用いられている。本稿では,新しいPEFT法であるSORSA(Singular Values and Orthonormal Regularized Singular Vectors Adaptation)を提案する。本稿では,パラメータの変動を特異値分解(SVD)によって解析し,SORSAのSVD面における変化を最小限に抑える上での優位性を議論し,分析する手法を提案する。各SORSAアダプタは、トレーニング可能な主特異量 $W_p = U_p \text{diag}(S_p) V^\top_p$ と、凍結された残量 $W_r = U_r \text{diag}(S_r) V^\top_r$ の2つの主要部分から構成される。これらの部分は、事前訓練された重量に対してSVDを実行することで初期化される。さらに,正規正規化正規化器を実装・解析することで,条件数$W_p$を削減し,最適化をより効率的にすることができることを示した。 SORSAアダプタは推論中にマージすることができ、推論遅延を排除できる。結局のところ、SORSAは、我々の実験において、PiSSAやLoRAよりも高速な収束を示す。 GSM-8Kベンチマークでは、SORSAを使用したLlama 2 7Bが56.03%の精度でLoRA(42.30%)、全FT(49.05%)、PiSSA(53.07%)を上回った。 MATHベンチマークでは、SORSAは10.36%の精度でLoRA(5.50%)、全FT(7.22%)、PiSSA(7.44%)を上回った。我々はSORSAがパラメータ効率の良い微調整の新しい視点を提供し、優れた性能を示すと結論付けた。コードはhttps://github.com/Gunale0926/SORSAで公開されている。

関連論文リスト

Singular Value Decomposition on Kronecker Adaptation for Large Language Model [0.8747606955991707]
大規模な事前訓練されたトランスフォーマーモデルは、様々な言語や推論タスクにまたがって最先端の結果が得られる。完全な微調整は、かなりのストレージ、メモリ、計算オーバーヘッドを発生させる。我々は, Kronecker-product tensor factorization と SVD-driven initialization と Dynamic rank selection を組み合わせた新しい PEFT 戦略である SoKA を提案する。
論文参考訳（メタデータ） (2025-06-18T08:28:53Z)
FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [61.79405341803085]
低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。
論文参考訳（メタデータ） (2025-05-19T07:32:56Z)
SpinSVAR: Estimating Structural Vector Autoregression Assuming Sparse Input [9.548703593014107]
本研究では,スパース入力仮定の下で時系列データから構造ベクトル自己回帰を推定する新しい手法であるSpinSvarを紹介する。我々は、入力を独立なラプラス変数としてモデル化し、最小絶対誤差回帰に基づいて、間隔を強制し、最大可能性推定器(MLE)を出力する。 S&P 500データに適用すると、S&P500はセクターごとに株をクラスタリングし、主要な価格変動に関連する重要な構造的ショックを特定する。
論文参考訳（メタデータ） (2025-01-06T16:48:30Z)
LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文参考訳（メタデータ） (2024-10-27T22:57:12Z)
PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models [23.890454137522774]
主特異値と特異ベクトル適応(PiSSA)を導入する。 PiSSAはLoRAと同じアーキテクチャを共有しているが、アダプタ行列を$A$と$B$で初期化し、元の行列の主成分は$W$である。 LoRAと比較すると、PiSSAは主コンポーネントを更新し、"残留"部分を凍結することで、より高速な収束と性能の向上を実現している。
論文参考訳（メタデータ） (2024-04-03T15:06:43Z)
A Specialized Semismooth Newton Method for Kernel-Based Optimal Transport [92.96250725599958]
カーネルベース最適輸送(OT)推定器は、サンプルからOT問題に対処するための代替的機能的推定手順を提供する。 SSN法は, 標準正規性条件下でのグローバル収束率$O (1/sqrtk)$, 局所二次収束率を達成できることを示す。
論文参考訳（メタデータ） (2023-10-21T18:48:45Z)
A Novel Sparse Regularizer [0.0]
本稿では,最適化時にモデルに適用されるエントロピーの新たな尺度を最小化する正規化器を提案する。微分可能で、単純で高速で計算し、スケール不変であり、簡単な量の追加メモリを必要とし、容易に並列化できる。
論文参考訳（メタデータ） (2023-01-18T03:17:36Z)
Adaptive Stochastic Gradient Descent for Fast and Communication-Efficient Distributed Learning [33.590006101071765]
マスタが分散降下(SGD)アルゴリズムを$n$ワーカー上で実行したい場合について検討する。本研究では,分散SGDの適応バージョンが非適応実装と比較して少ない時間で低い誤差値に達することを示す。
論文参考訳（メタデータ） (2022-08-04T10:57:25Z)
Bounding the Width of Neural Networks via Coupled Initialization -- A Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文参考訳（メタデータ） (2022-06-26T06:51:31Z)
Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文参考訳（メタデータ） (2022-02-02T11:58:56Z)
A contextual analysis of multi-layer perceptron models in classifying hand-written digits and letters: limited resources [0.0]
我々は,前処理や特徴抽出を行わずに,終端から終端までのバニラニューラルネットワーク(MLP)アプローチを純粋に検証した。基礎的なデータマイニング操作は,計算時間の観点からモデルの性能を著しく向上させることができることを示す。
論文参考訳（メタデータ） (2021-07-05T04:30:37Z)
Reducing the Variance of Gaussian Process Hyperparameter Optimization with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。基本的に無視可能なコストで、同時に分散を低減することができる。
論文参考訳（メタデータ） (2021-07-01T06:43:11Z)
VSAC: Efficient and Accurate Estimator for H and F [68.65610177368617]
VSACはRANSAC型頑健な推定器であり、多くの新奇性がある。従来のすべてのプロセッサよりも大幅に高速で、CPU上では平均1-2msで動作する。現在最も正確な2次元幾何学推定器である MAGSAC++ と同等の精度で2桁高速である。
論文参考訳（メタデータ） (2021-06-18T17:04:57Z)
Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。 EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文参考訳（メタデータ） (2021-01-20T06:18:38Z)
Computationally and Statistically Efficient Truncated Regression [36.3677715543994]
計算的かつ統計的に効率的な線形回帰の古典的問題に対する推定器を提供する。提案手法では, トランキャット標本の負の対数類似度に代わることなく, プロジェクテッド・Descent Gradient (PSGD) を用いて推定する。本稿では,SGDが単一層ニューラルネットワークの雑音活性化関数のパラメータを学習することを示す。
論文参考訳（メタデータ） (2020-10-22T19:31:30Z)
AdamP: Slowing Down the Slowdown for Momentum Optimizers on Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文参考訳（メタデータ） (2020-06-15T08:35:15Z)
ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。 ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文参考訳（メタデータ） (2020-06-01T05:00:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。