Fugu-MT 論文翻訳(概要): Temporal Scaling Law for Large Language Models

論文の概要: Temporal Scaling Law for Large Language Models

arxiv url: http://arxiv.org/abs/2404.17785v1
Date: Sat, 27 Apr 2024 05:49:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-30 19:20:56.668448
Title: Temporal Scaling Law for Large Language Models
Title（参考訳）: 大規模言語モデルの時間スケーリング法則
Authors: Yizhe Xiong, Xiansheng Chen, Xin Ye, Hui Chen, Zijia Lin, Haoran Lian, Jianwei Niu, Guiguang Ding,
Abstract要約: 本稿では, 時間的スケーリング法の概念を提案し, 時間的次元からLLMが失われることについて検討する。その結果,我々の時間的スケーリング法則は将来の訓練段階におけるLCMの性能を正確に予測できることがわかった。様々なスケールでの事前学習 LLM の実験により、この現象が生成言語モデルにおけるデフォルトのトレーニングパラダイムを検証することが示されている。
参考スコア（独自算出の注目度）: 25.031041004036926
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, Large Language Models (LLMs) are widely adopted in a wide range of tasks, leading to increasing attention towards the research on how scaling LLMs affects their performance. Existing works, termed as Scaling Laws, have discovered that the loss of LLMs scales as power laws with model size, computational budget, and dataset size. However, the performance of LLMs throughout the training process remains untouched. In this paper, we propose the novel concept of Temporal Scaling Law and study the loss of LLMs from the temporal dimension. We first investigate the imbalance of loss on each token positions and develop a reciprocal-law across model scales and training stages. We then derive the temporal scaling law by studying the temporal patterns of the reciprocal-law parameters. Results on both in-distribution (IID) data and out-of-distribution (OOD) data demonstrate that our temporal scaling law accurately predicts the performance of LLMs in future training stages. Moreover, the temporal scaling law reveals that LLMs learn uniformly on different token positions, despite the loss imbalance. Experiments on pre-training LLMs in various scales show that this phenomenon verifies the default training paradigm for generative language models, in which no re-weighting strategies are attached during training. Overall, the temporal scaling law provides deeper insight into LLM pre-training.
Abstract（参考訳）: 近年、LLM(Large Language Models)は幅広いタスクで広く採用されており、LLMのスケーリングがパフォーマンスに与える影響についての研究に注目が集まっている。既存の研究はスケーリング法則と呼ばれ、LLMの損失はモデルサイズ、計算予算、データセットサイズによる電力法則としてスケールすることを発見した。しかし、トレーニングプロセスを通してのLLMの性能は、まだ触れられていない。本稿では,時間的スケーリング法則の新たな概念を提案し,時間的次元からLLMが失われることについて検討する。まず,各トークン位置における損失の不均衡について検討し,モデルスケールとトレーニング段階をまたいだ相互法則を開発する。次に, 時間的スケーリング法則を, 相互法則パラメータの時間的パターンを研究することによって導出する。 In-distriion (IID) データとout-of-distriion (OOD)データの両方で、我々の時間的スケーリング法則が将来の訓練段階におけるLLMの性能を正確に予測していることを示す。さらに, 時間的スケーリング法則により, 損失不均衡にもかかわらず, LLM は異なるトークン位置で一様に学習することが明らかとなった。様々なスケールでのLLMの事前学習実験により、この現象は、学習中に再重み付け戦略を付加しない生成言語モデルにおけるデフォルトのトレーニングパラダイムを検証することが示されている。全体として、時間的スケーリング法則は、LLM事前学習に関する深い洞察を提供する。

関連論文リスト

Unveiling Over-Memorization in Finetuning LLMs for Reasoning Tasks [12.00585546066413]
事前訓練された大言語モデル (LLM) はラベル付きデータで微調整され、人間の値に適合する。本研究では,LLMファインタニングの学習ダイナミクスを推論タスクで研究し,その過記憶現象を明らかにする。記憶過剰なモデルでは、通常のモデルと同等のテスト精度を示すが、頑健さの低下、分布外一般化の低下、生成の多様性の低下に悩まされている。
論文参考訳（メタデータ） (2025-08-06T06:34:12Z)
Test-Time Learning for Large Language Models [33.11605667376906]
大規模言語モデル(LLM)のためのテスト時間学習(TTL)パラダイムを提案する。 LLMはテスト中にラベルなしのテストデータのみを使用してターゲットドメインに動的に適応する。 TLMはドメイン知識適応における元のLLMと比較して少なくとも20%性能が向上することを示す。
論文参考訳（メタデータ） (2025-05-27T02:18:59Z)
LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws [21.053622641336744]
ロス・ツー・ロスのスケーリング法則は、事前トレーニングされたデータセットと下流タスク間の損失を関連付ける。実験の結果,事前学習データとトークン化器がスケーリングの傾向を決定することがわかった。
論文参考訳（メタデータ） (2025-02-17T18:45:25Z)
The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文参考訳（メタデータ） (2025-01-21T20:23:22Z)
Sloth: scaling laws for LLM skills to predict multi-benchmark performance across families [43.36524246307057]
大規模言語モデル(LLM)のスケーリング法則は、サイズやトレーニングデータといったパラメータに基づいてパフォーマンスを予測する。我々は、公開されているベンチマークデータを活用する新しいスケーリング法則であるSkills Scaling Laws (SSLaws)を提案する。パラメータ同定と経験的評価について,12のベンチマークで理論的に検討した。
論文参考訳（メタデータ） (2024-12-09T14:51:26Z)
Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。 ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文参考訳（メタデータ） (2024-10-31T03:42:17Z)
Bayesian scaling laws for in-context learning [72.17734205418502]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。我々は、ICCがベイズ学習者を近似し、ICCのための新しいベイズスケーリング法則のファミリーを開発することを示す。
論文参考訳（メタデータ） (2024-10-21T21:45:22Z)
Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文参考訳（メタデータ） (2024-10-11T04:57:48Z)
Scaling Law with Learning Rate Annealing [4.121865876406014]
ニューラルネットワークモデルのクロスエントロピー損失曲線は、学習速度(LR)がトレーニングステップを上回り、スケーリング法則に準拠している。 LRアニールによるスケーリング法則の適用により、学習速度(LRS)の任意のステップにおける損失を正確に予測することができる。
論文参考訳（メタデータ） (2024-08-20T17:30:48Z)
Performance Law of Large Language Models [58.32539851241063]
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
論文参考訳（メタデータ） (2024-08-19T11:09:12Z)
Faster and Lighter LLMs: A Survey on Current Challenges and Way Forward [29.81212051279456]
モデル圧縮およびシステムレベルの最適化手法の最近の進歩は、LLM推論を強化することを目的としている。この調査はこれらの手法の概要を提供し、最近の発展を強調している。
論文参考訳（メタデータ） (2024-02-02T06:29:34Z)
Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文参考訳（メタデータ） (2023-10-13T07:38:52Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。