Fugu-MT 論文翻訳(概要): LORENZA: Enhancing Generalization in Low-Rank Gradient LLM Training via Efficient Zeroth-Order Adaptive SAM

論文の概要: LORENZA: Enhancing Generalization in Low-Rank Gradient LLM Training via Efficient Zeroth-Order Adaptive SAM

arxiv url: http://arxiv.org/abs/2502.19571v1
Date: Wed, 26 Feb 2025 21:30:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-28 17:31:07.864467
Title: LORENZA: Enhancing Generalization in Low-Rank Gradient LLM Training via Efficient Zeroth-Order Adaptive SAM
Title（参考訳）: LORENZA: 効率的なゼロオーダー適応SAMによる低ランクグラディエントLLMトレーニングにおける一般化の促進
Authors: Yehonathan Refael, Iftach Arbel, Ofir Lindenbaum, Tom Tirer,
Abstract要約: 大規模言語モデル(LLM)のためのロバストパラメータ効率細調整法(PEFT)について検討する。我々はAdam と Sharpness-Aware Minimization (SAM) を組み合わせた AdaZo-SAM という,計算効率のよい新しいフレームワークを提案する。また,AdaZo-SAMのメモリ効率向上版であるLORENZAという低ランク勾配最適化手法を設計した。
参考スコア（独自算出の注目度）: 13.180761892449736
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study robust parameter-efficient fine-tuning (PEFT) techniques designed to improve accuracy and generalization while operating within strict computational and memory hardware constraints, specifically focusing on large-language models (LLMs). Existing PEFT methods often lack robustness and fail to generalize effectively across diverse tasks, leading to suboptimal performance in real-world scenarios. To address this, we present a new highly computationally efficient framework called AdaZo-SAM, combining Adam and Sharpness-Aware Minimization (SAM) while requiring only a single-gradient computation in every iteration. This is achieved using a stochastic zeroth-order estimation to find SAM's ascent perturbation. We provide a convergence guarantee for AdaZo-SAM and show that it improves the generalization ability of state-of-the-art PEFT methods. Additionally, we design a low-rank gradient optimization method named LORENZA, which is a memory-efficient version of AdaZo-SAM. LORENZA utilizes a randomized SVD scheme to efficiently compute the subspace projection matrix and apply optimization steps onto the selected subspace. This technique enables full-parameter fine-tuning with adaptive low-rank gradient updates, achieving the same reduced memory consumption as gradient-low-rank-projection methods. We provide a convergence analysis of LORENZA and demonstrate its merits for pre-training and fine-tuning LLMs.
Abstract（参考訳）: 本研究では,厳密な計算およびメモリハードウェア制約の下で動作しながら,精度と一般化を改善するために,特に大規模言語モデル(LLM)に焦点を当てた堅牢なパラメータ効率細調整(PEFT)技術について検討する。既存のPEFTメソッドはロバスト性に欠けることが多く、様々なタスクを効果的に一般化できないため、現実のシナリオでは準最適性能が得られる。そこで本研究ではAdaZo-SAMという,AdamとSharpness-Aware Minimization(SAM)を組み合わせた高効率なフレームワークを提案する。これは、SAMの昇華摂動を見つけるために確率的ゼロ階推定を用いて達成される。我々は,AdaZo-SAMの収束保証を行い,最先端PEFT法の一般化能力を向上させることを示す。さらに,AdaZo-SAMのメモリ効率向上版であるLORENZAという低ランク勾配最適化手法を設計した。 LORENZAは、ランダム化されたSVDスキームを使用して、部分空間投影行列を効率的に計算し、選択した部分空間に最適化ステップを適用する。この技術は、適応的な低ランク勾配更新を伴うフルパラメータの微調整を可能にし、グラデーション・ローランク投影法と同じメモリ消費の削減を実現する。我々は,LORENZAの収束解析を行い,LLMの事前学習と微調整のメリットを実証する。

関連論文リスト

ESSA: Evolutionary Strategies for Scalable Alignment [2.589791058467358]
本稿では,進化的戦略(ES)を用いて大規模言語モデル(LLM)を効率的に整合させる新しいフレームワークであるESSAを紹介する。 ESは、高い並列化性、メモリ効率、スパース報酬に対する堅牢性、収束に必要なデータサンプルの少ないなど、LCMアライメントに適している。我々はESを勾配に基づくアライメントに代わる有望でスケーラブルな代替品として確立し、大規模言語モデルの効率的な後学習の道を開いた。
論文参考訳（メタデータ） (2025-07-06T16:23:07Z)
Gradient Multi-Normalization for Stateless and Scalable LLM Training [16.037614012166063]
大規模言語モデル(LLM)のトレーニングは通常、コンバージェンスを加速するために追加のステート情報を格納するAdamのようなアダプティブに依存している。 SWAN (Ma et al., 2024) のような最近の取り組みは、状態の必要性を排除し、瞬時勾配に適用したマルチステップ前処理手順により、Adamに匹敵する性能を達成することでこの問題に対処している。複数の基準に従って勾配を正規化するステートレス勾配を設計するための新しいフレームワークを導入する。最大10億のパラメータを持つ事前学習LLaMAモデルの実験は、Adamよりも3倍のスピードアップを示し、メモリ要求を大幅に削減し、他のメモリ効率のベースラインを上回っている。
論文参考訳（メタデータ） (2025-02-10T18:09:53Z)
I3S: Importance Sampling Subspace Selection for Low-Rank Optimization in LLM Pretraining [50.89661053183944]
低ランク最適化は、大規模言語モデル(LLM)のメモリ効率のトレーニングを可能にするための有望なアプローチとして登場した。既存の低ランク最適化手法は、通常、低ランクのサブスペースに勾配を投影し、状態を保存する際のメモリコストを低減させる。低ランク最適化のための重要サンプリング部分空間選択(I3S)を提案し、理論的には支配的部分空間アプローチに匹敵する収束率を提供する。
論文参考訳（メタデータ） (2025-02-09T06:30:19Z)
Avoiding spurious sharpness minimization broadens applicability of SAM [13.21265875272573]
シャープネス・アウェア・最小化(SAM)のような曲率正規化技術は、視覚タスクの一般化を改善する上で非常に有望である。 SAMは自然言語処理(NLP)のようなドメインではパフォーマンスが悪く、計算予算の2倍であっても、パフォーマンスが劣化することがよくあります。そこで我々は,関数の統計量を変更することでのみ曲率を正規化する関数SAMというアルゴリズムを開発した。
論文参考訳（メタデータ） (2025-02-04T15:25:47Z)
Fast Graph Sharpness-Aware Minimization for Enhancing and Accelerating Few-Shot Node Classification [53.727688136434345]
グラフニューラルネットワーク(GNN)はノード分類において優れた性能を示している。高速グラフシャープネス認識最小化(FGSAM)を提案する。提案アルゴリズムは,FSNCタスクにおいて,計算コストの低い標準SAMよりも優れる。
論文参考訳（メタデータ） (2024-10-22T09:33:29Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文参考訳（メタデータ） (2024-10-10T08:10:53Z)
Flat-LoRA: Low-Rank Adaption over a Flat Loss Landscape [52.98187034726091]
Low-Rank Adaptation (LoRA) は低ランク行列のみを最適化することでモデルを微調整する効率的な方法である。ロラ空間に平坦に見える解は、全パラメータ空間に鋭い方向が存在し、一般化性能を損なう可能性がある。フルパラメータ空間の平坦領域に位置する低ランク適応を求める効率的なアプローチであるFlat-LoRAを提案する。
論文参考訳（メタデータ） (2024-09-22T11:24:10Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文参考訳（メタデータ） (2024-02-18T14:08:48Z)
Momentum-SAM: Sharpness Aware Minimization without Computational Overhead [0.6577148087211809]
本稿では,蓄積された運動量ベクトルの方向にパラメータを摂動させ,計算オーバーヘッドやメモリ要求を伴わずに低シャープ性を実現するMomentum-SAMを提案する。我々は、MSAMを詳細に評価し、NAG、SAM、MSAMの分離可能なメカニズムの学習最適化と一般化に関する知見を明らかにする。
論文参考訳（メタデータ） (2024-01-22T15:19:18Z)
Systematic Investigation of Sparse Perturbed Sharpness-Aware Minimization Optimizer [158.2634766682187]
ディープニューラルネットワークは、複雑で非構造的なロスランドスケープのため、しばしば一般化の貧弱さに悩まされる。 SharpnessAware Minimization (SAM) は、摂動を加える際の景観の変化を最小限に抑えることで損失を平滑化するポピュラーなソリューションである。本稿では,二元マスクによる摂動を効果的かつ効果的に行う訓練手法であるスパースSAMを提案する。
論文参考訳（メタデータ） (2023-06-30T09:33:41Z)
Randomized Sharpness-Aware Training for Boosting Computational Efficiency in Deep Learning [13.937644559223548]
我々はRandomized Sharpness-Aware Training (RST)と呼ばれるシンプルで効率的なトレーニング手法を提案する。RSTのRSTは、ベースアルゴリズム(SGD)とシャープネス・アウェアアルゴリズム(SAM)からランダムに選択するために、各イテレーションでベルヌーイ試行を行う。その結果、G-RSTはSAMよりも50%のコストを節約できることがわかった。
論文参考訳（メタデータ） (2022-03-18T13:57:17Z)
Efficient Sharpness-aware Minimization for Improved Training of Neural Networks [146.2011175973769]
本稿では,SAM s の効率を高コストで向上する高効率シャープネス認識最小化器 (M) を提案する。 Mには、Stochastic Weight PerturbationとSharpness-Sensitive Data Selectionという、2つの新しい効果的なトレーニング戦略が含まれている。我々は、CIFARとImageNetデータセットの広範な実験を通して、ESAMはSAMよりも100%余分な計算を40%のvis-a-visベースに必要とせずに効率を向上させることを示した。
論文参考訳（メタデータ） (2021-10-07T02:20:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。