論文の概要: I3S: Importance Sampling Subspace Selection for Low-Rank Optimization in LLM Pretraining
- arxiv url: http://arxiv.org/abs/2502.05790v1
- Date: Sun, 09 Feb 2025 06:30:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:30:43.700557
- Title: I3S: Importance Sampling Subspace Selection for Low-Rank Optimization in LLM Pretraining
- Title(参考訳): I3S:LLM事前学習における低ランク最適化のための部分空間選択の重要性
- Authors: Haochen Zhang, Junze Yin, Guanchu Wang, Zirui Liu, Tianyi Zhang, Anshumali Shrivastava, Lin Yang, Vladimir Braverman,
- Abstract要約: 低ランク最適化は、大規模言語モデル(LLM)のメモリ効率のトレーニングを可能にするための有望なアプローチとして登場した。
既存の低ランク最適化手法は、通常、低ランクのサブスペースに勾配を投影し、状態を保存する際のメモリコストを低減させる。
低ランク最適化のための重要サンプリング部分空間選択(I3S)を提案し、理論的には支配的部分空間アプローチに匹敵する収束率を提供する。
- 参考スコア(独自算出の注目度): 50.89661053183944
- License:
- Abstract: Low-rank optimization has emerged as a promising approach to enabling memory-efficient training of large language models (LLMs). Existing low-rank optimization methods typically project gradients onto a low-rank subspace, reducing the memory cost of storing optimizer states. A key challenge in these methods is identifying suitable subspaces to ensure an effective optimization trajectory. Most existing approaches select the dominant subspace to preserve gradient information, as this intuitively provides the best approximation. However, we find that in practice, the dominant subspace stops changing during pretraining, thereby constraining weight updates to similar subspaces. In this paper, we propose importance sampling subspace selection (I3S) for low-rank optimization, which theoretically offers a comparable convergence rate to the dominant subspace approach. Empirically, we demonstrate that I3S significantly outperforms previous methods in LLM pretraining tasks.
- Abstract(参考訳): 低ランク最適化は、大規模言語モデル(LLM)のメモリ効率のトレーニングを可能にするための有望なアプローチとして登場した。
既存の低ランク最適化手法は、通常、低ランクのサブスペースに勾配を投影し、オプティマイザ状態を保存する際のメモリコストを低減させる。
これらの手法における重要な課題は、効率的な最適化軌道を確保するために適切な部分空間を特定することである。
既存のほとんどのアプローチは勾配情報を保存するために支配的な部分空間を選択するが、これは直感的に最良の近似を与える。
しかし、実際には、支配部分空間は事前訓練中に変化しなくなり、したがって類似部分空間への重み更新が制限される。
本稿では,低ランク最適化のための重要サンプリング部分空間選択(I3S)を提案し,理論的には支配的部分空間アプローチに匹敵する収束率を提供する。
実験により, I3S は LLM 事前学習タスクにおいて, 従来手法よりも有意に優れていたことが実証された。
関連論文リスト
- Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文 参考訳(メタデータ) (2024-10-10T08:10:53Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - An Adaptive Dimension Reduction Estimation Method for High-dimensional
Bayesian Optimization [6.79843988450982]
BOを高次元設定に拡張するための2段階最適化フレームワークを提案する。
私たちのアルゴリズムは、これらのステップを並列またはシーケンスで操作する柔軟性を提供します。
数値実験により,困難シナリオにおける本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-03-08T16:21:08Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - A Particle-based Sparse Gaussian Process Optimizer [5.672919245950197]
本稿では,下降の動的過程を利用した新しいスワム・スワムベースのフレームワークを提案する。
このアプローチの最大の利点は、降下を決定する前に現在の状態についてより深い探索を行うことである。
論文 参考訳(メタデータ) (2022-11-26T09:06:15Z) - Meta Subspace Optimization [20.69982393658195]
部分空間最適化法は、大規模最適化問題を低次元部分空間最適化問題の列に還元する魅力的な性質を持つ。
既存のサブスペース最適化フレームワークは、サブスペースの固定更新ポリシーを採用しており、したがって、サブ最適イテレーションであるように見える。
本稿では,各最適化における部分空間行列の決定を可能にする,大規模最適化問題のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-28T07:02:59Z) - A Primer on Zeroth-Order Optimization in Signal Processing and Machine
Learning [95.85269649177336]
ZO最適化は、勾配推定、降下方向、ソリューション更新の3つの主要なステップを反復的に実行する。
我々は,ブラックボックス深層学習モデルによる説明文の評価や生成,効率的なオンラインセンサ管理など,ZO最適化の有望な応用を実証する。
論文 参考訳(メタデータ) (2020-06-11T06:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。