論文の概要: Temporal Scaling Law for Large Language Models
- arxiv url: http://arxiv.org/abs/2404.17785v1
- Date: Sat, 27 Apr 2024 05:49:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 19:20:56.668448
- Title: Temporal Scaling Law for Large Language Models
- Title(参考訳): 大規模言語モデルの時間スケーリング法則
- Authors: Yizhe Xiong, Xiansheng Chen, Xin Ye, Hui Chen, Zijia Lin, Haoran Lian, Jianwei Niu, Guiguang Ding,
- Abstract要約: 本稿では, 時間的スケーリング法の概念を提案し, 時間的次元からLLMが失われることについて検討する。
その結果,我々の時間的スケーリング法則は将来の訓練段階におけるLCMの性能を正確に予測できることがわかった。
様々なスケールでの事前学習 LLM の実験により、この現象が生成言語モデルにおけるデフォルトのトレーニングパラダイムを検証することが示されている。
- 参考スコア(独自算出の注目度): 25.031041004036926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Large Language Models (LLMs) are widely adopted in a wide range of tasks, leading to increasing attention towards the research on how scaling LLMs affects their performance. Existing works, termed as Scaling Laws, have discovered that the loss of LLMs scales as power laws with model size, computational budget, and dataset size. However, the performance of LLMs throughout the training process remains untouched. In this paper, we propose the novel concept of Temporal Scaling Law and study the loss of LLMs from the temporal dimension. We first investigate the imbalance of loss on each token positions and develop a reciprocal-law across model scales and training stages. We then derive the temporal scaling law by studying the temporal patterns of the reciprocal-law parameters. Results on both in-distribution (IID) data and out-of-distribution (OOD) data demonstrate that our temporal scaling law accurately predicts the performance of LLMs in future training stages. Moreover, the temporal scaling law reveals that LLMs learn uniformly on different token positions, despite the loss imbalance. Experiments on pre-training LLMs in various scales show that this phenomenon verifies the default training paradigm for generative language models, in which no re-weighting strategies are attached during training. Overall, the temporal scaling law provides deeper insight into LLM pre-training.
- Abstract(参考訳): 近年、LLM(Large Language Models)は幅広いタスクで広く採用されており、LLMのスケーリングがパフォーマンスに与える影響についての研究に注目が集まっている。
既存の研究はスケーリング法則と呼ばれ、LLMの損失はモデルサイズ、計算予算、データセットサイズによる電力法則としてスケールすることを発見した。
しかし、トレーニングプロセスを通してのLLMの性能は、まだ触れられていない。
本稿では,時間的スケーリング法則の新たな概念を提案し,時間的次元からLLMが失われることについて検討する。
まず,各トークン位置における損失の不均衡について検討し,モデルスケールとトレーニング段階をまたいだ相互法則を開発する。
次に, 時間的スケーリング法則を, 相互法則パラメータの時間的パターンを研究することによって導出する。
In-distriion (IID) データとout-of-distriion (OOD)データの両方で、我々の時間的スケーリング法則が将来の訓練段階におけるLLMの性能を正確に予測していることを示す。
さらに, 時間的スケーリング法則により, 損失不均衡にもかかわらず, LLM は異なるトークン位置で一様に学習することが明らかとなった。
様々なスケールでのLLMの事前学習実験により、この現象は、学習中に再重み付け戦略を付加しない生成言語モデルにおけるデフォルトのトレーニングパラダイムを検証することが示されている。
全体として、時間的スケーリング法則は、LLM事前学習に関する深い洞察を提供する。
関連論文リスト
- Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - Bayesian scaling laws for in-context learning [72.17734205418502]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。
我々は、ICCがベイズ学習者を近似し、ICCのための新しいベイズスケーリング法則のファミリーを開発することを示す。
論文 参考訳(メタデータ) (2024-10-21T21:45:22Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Scaling Law with Learning Rate Annealing [4.121865876406014]
ニューラルネットワークモデルのクロスエントロピー損失曲線は、学習速度(LR)がトレーニングステップを上回り、スケーリング法則に準拠している。
LRアニールによるスケーリング法則の適用により、学習速度(LRS)の任意のステップにおける損失を正確に予測することができる。
論文 参考訳(メタデータ) (2024-08-20T17:30:48Z) - Performance Law of Large Language Models [58.32539851241063]
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
論文 参考訳(メタデータ) (2024-08-19T11:09:12Z) - Faster and Lighter LLMs: A Survey on Current Challenges and Way Forward [29.81212051279456]
モデル圧縮およびシステムレベルの最適化手法の最近の進歩は、LLM推論を強化することを目的としている。
この調査はこれらの手法の概要を提供し、最近の発展を強調している。
論文 参考訳(メタデータ) (2024-02-02T06:29:34Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。