論文の概要: To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis
- arxiv url: http://arxiv.org/abs/2305.13230v2
- Date: Thu, 5 Oct 2023 14:58:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 12:23:55.691711
- Title: To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis
- Title(参考訳): 繰り返すか繰り返すか:Token-Crisis下でのLSMのスケーリングから
- Authors: Fuzhao Xue, Yao Fu, Wangchunshu Zhou, Zangwei Zheng, Yang You
- Abstract要約: 大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
- 参考スコア(独自算出の注目度): 50.31589712761807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has highlighted the importance of dataset size in scaling
language models. However, large language models (LLMs) are notoriously
token-hungry during pre-training, and high-quality text data on the web is
approaching its scaling limit for LLMs. To further enhance LLMs, a
straightforward approach is to repeat the pre-training data for additional
epochs. In this study, we empirically investigate three key aspects under this
approach. First, we explore the consequences of repeating pre-training data,
revealing that the model is susceptible to overfitting, leading to multi-epoch
degradation. Second, we examine the key factors contributing to multi-epoch
degradation, finding that significant factors include dataset size, model
parameters, and training objectives, while less influential factors consist of
dataset quality and model FLOPs. Finally, we explore whether widely used
regularization can alleviate multi-epoch degradation. Most regularization
techniques do not yield significant improvements, except for dropout, which
demonstrates remarkable effectiveness but requires careful tuning when scaling
up the model size. Additionally, we discover that leveraging mixture-of-experts
(MoE) enables cost-effective and efficient hyper-parameter tuning for
computationally intensive dense LLMs with comparable trainable parameters,
potentially impacting efficient LLM development on a broader scale.
- Abstract(参考訳): 最近の研究は、スケールする言語モデルにおけるデータセットのサイズの重要性を強調している。
しかし、事前トレーニング中の大言語モデル(llm)はトークンに富むことで悪名高く、web上の高品質なテキストデータがllmのスケーリング限界に近づいている。
LLMをさらに強化するために、簡単なアプローチは、追加のエポックのために事前学習データを繰り返すことである。
本研究では,本研究における3つの重要な側面を実証的に検討する。
まず,事前学習データを繰り返した結果について検討し,モデルが過度に適合しやすいことを明らかにし,マルチ・エポック劣化を生じさせる。
第2に,マルチエピック劣化に寄与する重要な要因について検討し,データセットのサイズ,モデルパラメータ,トレーニング目標など重要な要因について検討した。
最後に、広く使われている正規化がマルチエピック劣化を緩和できるかどうかを考察する。
ほとんどの正規化技術では、ドロップアウトを除いて大幅な改善は行われないが、モデルサイズをスケールアップするには注意深いチューニングが必要である。
さらに,ME(Mixix-of-Experts)を利用することで,計算量の多い高密度LLMに対して,コスト効率,高効率なハイパーパラメータチューニングが可能であることが判明した。
関連論文リスト
- Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation
in ultra low-data regimes [62.94611066903098]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z) - Robustness-preserving Lifelong Learning via Dataset Condensation [11.83450966328136]
「破滅的忘れ」とは、新しいデータよりもモデルの精度が向上し、以前のデータよりも精度が保たれるという悪名高いジレンマを指す。
本稿では,現在のデータの「コアセット」を決定するために,現代の二段階最適化手法を活用する新しいメモリ再生LL戦略を提案する。
結果の LL フレームワークを 'Data-Efficient Robustness-Preserving LL' (DERPLL) と呼ぶ。
実験の結果, DERPLLは従来のコアセット誘導LLベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-03-07T19:09:03Z) - Exploring the Potential of Feature Density in Estimating Machine
Learning Classifier Performance with Application to Cyberbullying Detection [2.4674086273775035]
我々は,機械学習(ML)分類器の性能を訓練前に相対的に推定する方法として,特徴密度(HD)の可能性を分析する。
我々のアプローチ1は、自然言語処理のためのMLモデルのリソース集約的なトレーニングを最適化し、必要な実験の数を減らすことである。
論文 参考訳(メタデータ) (2022-06-04T09:11:13Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。