論文の概要: Temporal Scaling Law for Large Language Models
- arxiv url: http://arxiv.org/abs/2404.17785v1
- Date: Sat, 27 Apr 2024 05:49:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 19:20:56.668448
- Title: Temporal Scaling Law for Large Language Models
- Title(参考訳): 大規模言語モデルの時間スケーリング法則
- Authors: Yizhe Xiong, Xiansheng Chen, Xin Ye, Hui Chen, Zijia Lin, Haoran Lian, Jianwei Niu, Guiguang Ding,
- Abstract要約: 本稿では, 時間的スケーリング法の概念を提案し, 時間的次元からLLMが失われることについて検討する。
その結果,我々の時間的スケーリング法則は将来の訓練段階におけるLCMの性能を正確に予測できることがわかった。
様々なスケールでの事前学習 LLM の実験により、この現象が生成言語モデルにおけるデフォルトのトレーニングパラダイムを検証することが示されている。
- 参考スコア(独自算出の注目度): 25.031041004036926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Large Language Models (LLMs) are widely adopted in a wide range of tasks, leading to increasing attention towards the research on how scaling LLMs affects their performance. Existing works, termed as Scaling Laws, have discovered that the loss of LLMs scales as power laws with model size, computational budget, and dataset size. However, the performance of LLMs throughout the training process remains untouched. In this paper, we propose the novel concept of Temporal Scaling Law and study the loss of LLMs from the temporal dimension. We first investigate the imbalance of loss on each token positions and develop a reciprocal-law across model scales and training stages. We then derive the temporal scaling law by studying the temporal patterns of the reciprocal-law parameters. Results on both in-distribution (IID) data and out-of-distribution (OOD) data demonstrate that our temporal scaling law accurately predicts the performance of LLMs in future training stages. Moreover, the temporal scaling law reveals that LLMs learn uniformly on different token positions, despite the loss imbalance. Experiments on pre-training LLMs in various scales show that this phenomenon verifies the default training paradigm for generative language models, in which no re-weighting strategies are attached during training. Overall, the temporal scaling law provides deeper insight into LLM pre-training.
- Abstract(参考訳): 近年、LLM(Large Language Models)は幅広いタスクで広く採用されており、LLMのスケーリングがパフォーマンスに与える影響についての研究に注目が集まっている。
既存の研究はスケーリング法則と呼ばれ、LLMの損失はモデルサイズ、計算予算、データセットサイズによる電力法則としてスケールすることを発見した。
しかし、トレーニングプロセスを通してのLLMの性能は、まだ触れられていない。
本稿では,時間的スケーリング法則の新たな概念を提案し,時間的次元からLLMが失われることについて検討する。
まず,各トークン位置における損失の不均衡について検討し,モデルスケールとトレーニング段階をまたいだ相互法則を開発する。
次に, 時間的スケーリング法則を, 相互法則パラメータの時間的パターンを研究することによって導出する。
In-distriion (IID) データとout-of-distriion (OOD)データの両方で、我々の時間的スケーリング法則が将来の訓練段階におけるLLMの性能を正確に予測していることを示す。
さらに, 時間的スケーリング法則により, 損失不均衡にもかかわらず, LLM は異なるトークン位置で一様に学習することが明らかとなった。
様々なスケールでのLLMの事前学習実験により、この現象は、学習中に再重み付け戦略を付加しない生成言語モデルにおけるデフォルトのトレーニングパラダイムを検証することが示されている。
全体として、時間的スケーリング法則は、LLM事前学習に関する深い洞察を提供する。
関連論文リスト
- The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Towards Optimal Learning of Language Models [124.65669486710992]
言語モデル(LM)の最適学習の理論を提案する。
我々は、最適学習過程における力学の性質を明らかにするために、学習法則という定理を導出した。
我々は、LMの最適学習が、LMのスケーリング法則における係数の改善に起因することを実証的に検証した。
論文 参考訳(メタデータ) (2024-02-27T18:52:19Z) - Scaling Laws for Downstream Task Performance of Large Language Models [28.904224842085064]
プレトレーニングデータの選択が、下流のクロスエントロピーとBLEUスコアの2つの指標から判断された下流のパフォーマンス(翻訳品質)にどのように影響するかを検討する。
十分なアライメントで、下流のクロスエントロピーとBLEUスコアは、より事前トレーニングされたデータによって単調に改善される。
論文 参考訳(メタデータ) (2024-02-06T17:31:20Z) - Faster and Lighter LLMs: A Survey on Current Challenges and Way Forward [29.81212051279456]
モデル圧縮およびシステムレベルの最適化手法の最近の進歩は、LLM推論を強化することを目的としている。
この調査はこれらの手法の概要を提供し、最近の発展を強調している。
論文 参考訳(メタデータ) (2024-02-02T06:29:34Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。