Fugu-MT 論文翻訳(概要): STEP: Staged Parameter-Efficient Pre-training for Large Language Models

論文の概要: STEP: Staged Parameter-Efficient Pre-training for Large Language Models

arxiv url: http://arxiv.org/abs/2504.04151v1
Date: Sat, 05 Apr 2025 12:07:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-16 05:39:38.108688
Title: STEP: Staged Parameter-Efficient Pre-training for Large Language Models
Title（参考訳）: STEP:大規模言語モデルのための段階的パラメータ効率向上事前学習
Authors: Kazuki Yano, Takumi Ito, Jun Suzuki,
Abstract要約: 事前学習型大規模言語モデル(LLM)は、モデルパラメータの大きいため、メモリ上の大きな課題に直面している。パラメータ効率のよい事前学習(STEP)を導入し,パラメータ効率の調整手法とモデル成長を統合した。
参考スコア（独自算出の注目度）: 16.77087225406202
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pre-training large language models (LLMs) faces significant memory challenges due to the large size of model parameters. We introduce STaged parameter-Efficient Pre-training (STEP), which integrates parameter-efficient tuning techniques with model growth. We conduct experiments on pre-training LLMs of various sizes and demonstrate that STEP achieves up to a 53.9% reduction in maximum memory requirements compared to vanilla pre-training while maintaining equivalent performance. Furthermore, we show that the model by STEP performs comparably to vanilla pre-trained models on downstream tasks after instruction tuning.
Abstract（参考訳）: 事前学習型大規模言語モデル(LLM)は、モデルパラメータの大きいため、メモリ上の大きな課題に直面している。パラメータ効率のよい事前学習(STEP)を導入し,パラメータ効率の調整手法とモデル成長を統合した。各種規模の事前学習 LLM 実験を行い,STEP がバニラ事前学習と比較して最大 53.9% のメモリ要求を削減できることを実証した。さらに,STEP によるモデルが,インストラクションチューニング後の下流タスクにおけるバニラ事前学習モデルと同等に動作することを示す。

関連論文リスト

Advantageous Parameter Expansion Training Makes Better Large Language Models [50.82647159657912]
パラメータのサブセットは、有利なパラメータと呼ばれ、モデルの性能を決定する上で重要な役割を果たす。本稿では,有利なパラメータを不利なパラメータの空間に段階的に拡張する手法であるAdvantageous Expansion Training (APEX)を提案する。 APEXは、トレーニングデータのわずか33%で、従来のトレーニングと同じ難易度レベルに達し、下流タスクに大幅な改善をもたらす。
論文参考訳（メタデータ） (2025-05-30T06:06:23Z)
Overtrained Language Models Are Harder to Fine-Tune [64.44743256512237]
大規模言語モデルは、成長を続けるトークン予算に基づいて事前訓練されている。事前トレーニングの拡張により、モデルを微調整しにくくなり、最終的なパフォーマンスが低下することを示した。
論文参考訳（メタデータ） (2025-03-24T23:11:56Z)
Meta-Learning Adaptable Foundation Models [37.458141335750696]
本稿では,PEFTを組み込んだメタラーニングフレームワークを導入し,未知のタスクに容易に適応可能なモデルを学習する。この設定では、適応可能なパラメータの集合を見つけるための標準再訓練の準最適性を示す。次に、これらの理論的洞察をRoBERTaモデルの再訓練に適用し、ConvAI2データセット内の会話の継続を予測する。
論文参考訳（メタデータ） (2024-10-29T17:24:18Z)
SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文参考訳（メタデータ） (2024-09-10T16:44:47Z)
Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。 ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文参考訳（メタデータ） (2024-07-30T06:33:44Z)
Low-rank Attention Side-Tuning for Parameter-Efficient Fine-Tuning [19.17362588650503]
低ランク・アテンション・サイドチューニング (LAST) は低ランク・アテンション・モジュールのみで構成されるサイドネットワークを訓練する。 LASTは、複数の最適化目標に対して高い並列性を示し、下流タスク適応において非常に効率的である。
論文参考訳（メタデータ） (2024-02-06T14:03:15Z)
Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文参考訳（メタデータ） (2022-05-11T17:10:41Z)
METRO: Efficient Denoising Pretraining of Large Scale Autoencoding Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文参考訳（メタデータ） (2022-04-13T21:39:15Z)
DQ-BART: Efficient Sequence-to-Sequence Model via Joint Distillation and Quantization [75.72231742114951]
BARTやT5のような大規模事前学習シーケンス・ツー・シーケンスモデルは、多くの生成NLPタスクで最先端のパフォーマンスを達成する。これらのモデルは、大きなメモリ要件と高いレイテンシのため、リソース制約のあるシナリオにおいて大きな課題となる。そこで,本論文では,教師モデルから学生モデルへの知識の伝達と,学生モデルの定量化と定量化について提案する。
論文参考訳（メタデータ） (2022-03-21T18:04:25Z)
bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。 bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文参考訳（メタデータ） (2021-10-14T04:05:25Z)
Rethinking embedding coupling in pre-trained language models [46.11201932668366]
我々は、事前学習された言語モデルにおける入力と出力の埋め込みの重みを共有する標準的な方法を再評価する。分離された埋め込みによりモデリングの柔軟性が向上し、パラメータ割り当ての効率が大幅に向上することを示す。我々は、微調整段階においてパラメータの数を増やすことなく、XTREMEベンチマークで高い性能を達成するモデルを訓練することができる。
論文参考訳（メタデータ） (2020-10-24T07:43:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。