論文の概要: Rethinking Learning Rate Tuning in the Era of Large Language Models
- arxiv url: http://arxiv.org/abs/2309.08859v1
- Date: Sat, 16 Sep 2023 03:37:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 18:50:59.309332
- Title: Rethinking Learning Rate Tuning in the Era of Large Language Models
- Title(参考訳): 大規模言語モデル時代における学習速度チューニングの再考
- Authors: Hongpeng Jin, Wenqi Wei, Xuyu Wang, Wenbin Zhang, Yanzhao Wu
- Abstract要約: 大規模言語モデル(LLM)は、人間のような優れた予測性能を達成するために、近年のディープラーニングの成功を表している。
ファインチューニングを活用して、様々な現実世界のアプリケーションにLLMを適用するための主要な戦略となっている。
既存の学習率ポリシは、主に従来のディープニューラルネットワーク(DNN)のトレーニング用に設計されている。
- 参考スコア(独自算出の注目度): 11.87985768634266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) represent the recent success of deep learning in
achieving remarkable human-like predictive performance. It has become a
mainstream strategy to leverage fine-tuning to adapt LLMs for various
real-world applications due to the prohibitive expenses associated with LLM
training. The learning rate is one of the most important hyperparameters in LLM
fine-tuning with direct impacts on both fine-tuning efficiency and fine-tuned
LLM quality. Existing learning rate policies are primarily designed for
training traditional deep neural networks (DNNs), which may not work well for
LLM fine-tuning. We reassess the research challenges and opportunities of
learning rate tuning in the coming era of Large Language Models. This paper
makes three original contributions. First, we revisit existing learning rate
policies to analyze the critical challenges of learning rate tuning in the era
of LLMs. Second, we present LRBench++ to benchmark learning rate policies and
facilitate learning rate tuning for both traditional DNNs and LLMs. Third, our
experimental analysis with LRBench++ demonstrates the key differences between
LLM fine-tuning and traditional DNN training and validates our analysis.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間のような優れた予測性能を達成するためのディープラーニングの成功を表している。
LLMトレーニングに伴う禁忌費用のため、様々な現実の応用に適用するために微調整を活用することが主流となっている。
学習速度は、微調整効率と微調整LDMの品質の両方に直接的な影響を及ぼすLLM微細調整における最も重要なハイパーパラメータの1つである。
既存の学習率ポリシは主に、従来のディープニューラルネットワーク(DNN)のトレーニング用に設計されている。
我々は,今後の大規模言語モデルにおける学習率チューニングの課題と機会を再評価する。
本稿は3つのオリジナルコントリビュートを示す。
まず,LLM時代の学習率調整における重要な課題を分析するために,既存の学習率ポリシーを再検討する。
次に、LRBench++を用いて学習率ポリシーのベンチマークを行い、従来のDNNとLLMの学習率チューニングを容易にする。
第3に、LRBench++を用いた実験分析は、LLM微調整と従来のDNNトレーニングの主な違いを示し、分析を検証する。
関連論文リスト
- Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - Achieving Peak Performance for Large Language Models: A Systematic Review [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めた
モデルが1兆のパラメータ範囲に成長するにつれて、計算とメモリのコストは大幅に増加する。
これにより、多くの研究者がこれらのモデルのトレーニングや適用に必要なリソースにアクセスするのが難しくなる。
論文 参考訳(メタデータ) (2024-09-07T13:57:41Z) - Leveraging Large Language Models for Wireless Symbol Detection via In-Context Learning [29.28683810366379]
本稿では,大規模言語モデル(LLM)の文脈内学習能力(即ち,プロンプト)を活用して,学習や微調整をすることなく,低データ体制下での無線タスクを解決することを提案する。
この結果から,ICL法によるLCMはシンボル復調作業において従来のDNNよりも優れていたことが判明した。
論文 参考訳(メタデータ) (2024-08-28T17:19:20Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Towards Optimal Learning of Language Models [124.65669486710992]
言語モデル(LM)の最適学習の理論を提案する。
我々は、最適学習過程における力学の性質を明らかにするために、学習法則という定理を導出した。
我々は、LMの最適学習が、LMのスケーリング法則における係数の改善に起因することを実証的に検証した。
論文 参考訳(メタデータ) (2024-02-27T18:52:19Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。