Fugu-MT 論文翻訳(概要): Scalable Parameter and Memory Efficient Pretraining for LLM: Recent Algorithmic Advances and Benchmarking

論文の概要: Scalable Parameter and Memory Efficient Pretraining for LLM: Recent Algorithmic Advances and Benchmarking

arxiv url: http://arxiv.org/abs/2505.22922v1
Date: Wed, 28 May 2025 22:51:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.572814
Title: Scalable Parameter and Memory Efficient Pretraining for LLM: Recent Algorithmic Advances and Benchmarking
Title（参考訳）: LLMのための拡張パラメータとメモリ効率の事前学習:最近のアルゴリズムの進歩とベンチマーク
Authors: Athanasios Glentis, Jiaxiang Li, Qiulin Shang, Andi Han, Ioannis Tsaknakis, Quan Wei, Mingyi Hong,
Abstract要約: 大規模言語モデル(LLM)は前例のない速度で成長し、最近のモデルには数兆のパラメータを含むものもある。この成長には、特にトレーニングや微調整に必要なメモリと計算資源に関して、かなりの計算上の課題が伴う。パラメーターまたはメモリ効率のよいメソッドは、事前トレーニングの効率を高めつつ、フルモデルトレーニングに匹敵するパフォーマンスを達成することができるだろうか?
参考スコア（独自算出の注目度）: 26.80161478380058
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fueled by their remarkable ability to tackle diverse tasks across multiple domains, large language models (LLMs) have grown at an unprecedented rate, with some recent models containing trillions of parameters. This growth is accompanied by substantial computational challenges, particularly regarding the memory and compute resources required for training and fine-tuning. Numerous approaches have been explored to address these issues, such as LoRA. While these methods are effective for fine-tuning, their application to pre-training is significantly more challenging due to the need to learn vast datasets. Motivated by this issue, we aim to address the following questions: Can parameter- or memory-efficient methods enhance pre-training efficiency while achieving performance comparable to full-model training? How can the performance gap be narrowed? To this end, the contributions of this work are the following. (1) We begin by conducting a comprehensive survey that summarizes state-of-the-art methods for efficient pre-training. (2) We perform a benchmark evaluation of several representative memory efficient pre-training approaches to comprehensively evaluate their performance across model sizes. We observe that with a proper choice of optimizer and hyperparameters, full-rank training delivers the best performance, as expected. We also notice that incorporating high-rank updates in low-rank approaches is the key to improving their performance. (3) Finally, we propose two practical techniques, namely weight refactorization and momentum reset, to enhance the performance of efficient pre-training methods. We observe that applying these techniques to the low-rank method (on a 1B model) can achieve a lower perplexity than popular memory efficient algorithms such as GaLore and Fira, while simultaneously using about 25% less memory.
Abstract（参考訳）: 複数のドメインにまたがる多様なタスクに取り組む素晴らしい能力によって、大規模言語モデル(LLM)は前例のない速度で成長し、最近のモデルには数兆のパラメータが含まれている。この成長には、特にトレーニングや微調整に必要なメモリと計算資源に関して、かなりの計算上の課題が伴う。 LoRAなど、これらの問題に対処するための多くのアプローチが検討されている。これらの手法は微調整に有効であるが、膨大なデータセットを学習する必要があるため、事前学習への応用は極めて困難である。パラメーターまたはメモリ効率のよいメソッドは、事前トレーニングの効率を高めつつ、フルモデルトレーニングに匹敵するパフォーマンスを達成することができるだろうか? パフォーマンスギャップを狭めるには? この目的のために、この作品の貢献は以下の通りである。 1) 効率的な事前学習のための最先端手法をまとめた総合的な調査から始める。 2) モデルサイズにまたがる性能を総合的に評価するために,複数の代表記憶効率の高い事前学習手法のベンチマーク評価を行う。我々は、オプティマイザとハイパーパラメータの適切な選択により、フルランクトレーニングが期待通り最高のパフォーマンスをもたらすことを観察する。ハイランクな更新を低ランクなアプローチに組み込むことが、パフォーマンス向上の鍵であることにも気付きました。 (3)最後に,効率的な事前学習法の性能を高めるために,重み付けと運動量リセットという2つの実用的手法を提案する。この手法を低ランク法(1Bモデル)に適用することで,GaLore や Fira などの一般的なメモリ効率アルゴリズムよりも難易度が低く,同時に約25%のメモリ使用量を削減できることが観察された。

関連論文リスト

AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文参考訳（メタデータ） (2024-10-23T13:53:26Z)
Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文参考訳（メタデータ） (2024-08-21T06:48:38Z)
SwitchLoRA: Switched Low-Rank Adaptation Can Learn Full-Rank Information [3.6859322366469933]
ReLoRAやGaLoreのような手法は、低ランクのサブスペースを更新することでこの問題に対処しようとしている。本稿では,LoRAのトレーニング可能なパラメータを代替パラメータに頻繁にスムーズに置き換える,パラメータ効率のトレーニング手法であるSwitchLoRAを紹介する。
論文参考訳（メタデータ） (2024-06-03T05:40:34Z)
VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文参考訳（メタデータ） (2024-05-28T09:23:14Z)
MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning [105.11844150736536]
低ランク適応は、大規模言語モデルのためのパラメータ効率の良い微調整法として人気がある。トレーニング可能なパラメータ数を同じ数に保ちながら、高階更新を実現するために2乗行列を用いるMoRAと呼ばれる新しい手法を提案する。本手法はメモリ集約型タスクではLoRAより優れ,他のタスクでは同等のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-20T15:48:32Z)
Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文参考訳（メタデータ） (2024-02-05T10:55:47Z)
CAME: Confidence-guided Adaptive Memory Efficient Optimization [20.009302737137787]
適応勾配法は大規模言語モデルの訓練において優れた性能を示した。二次モーメント推定の維持には、メモリオーバーヘッドの増大を高いコストで維持する必要がある。補助メモリ使用量の大幅な削減を実現するために、いくつかのメモリ効率が提案されているが、性能上のペナルティがある。我々は,従来の適応手法のように高速収束,メモリ効率の低い2つの目標を同時に達成するために,CAMEを提案する。
論文参考訳（メタデータ） (2023-07-05T06:05:36Z)
Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2023-04-25T21:49:09Z)
Efficient Fine-Tuning of Compressed Language Models with Learners [12.768368718187428]
本稿では,BERTをベースとしたモデルを微調整する新しい手法であるLearnerモジュールとプライミングを紹介する。学習モジュールは, 1) パラメータのサブセットを微調整することで, 1) 学習モジュールの二重結合を効果的に操作し, 2) 迅速な収束と高い測定値のスコアを確保することによって効果的に学習する。 DistilBERTの結果は,学習者がベースラインに匹敵する性能を示した。
論文参考訳（メタデータ） (2022-08-03T13:42:30Z)
On the efficiency of Stochastic Quasi-Newton Methods for Deep Learning [0.0]
深部記憶ネットワークのための準ニュートン学習アルゴリズムの動作について検討する。準ニュートンは効率が良く、よく知られたAdamの1次実行よりも性能が優れていることを示す。
論文参考訳（メタデータ） (2022-05-18T20:53:58Z)
Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文参考訳（メタデータ） (2022-05-11T17:10:41Z)
Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文参考訳（メタデータ） (2022-03-23T06:24:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。