論文の概要: Relative-Based Scaling Law for Neural Language Models
- arxiv url: http://arxiv.org/abs/2510.20387v1
- Date: Thu, 23 Oct 2025 09:37:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.734359
- Title: Relative-Based Scaling Law for Neural Language Models
- Title(参考訳): ニューラルネットワークモデルの相対的スケーリング法則
- Authors: Baoqing Yue, Jinyuan Zhou, Zixi Wei, Jingtao Zhan, Qingyao Ai, Yiqun Liu,
- Abstract要約: スケーリング法則は、異なるスケールでモデルパフォーマンスを正確に予測することを目的としている。
既存のスケーリング法則の研究はほとんど、評価指標としてクロスエントロピーに依存している。
本稿では,RBPのモデルサイズの増加に伴う改善を特徴付ける相対的スケーリング法を提案する。
- 参考スコア(独自算出の注目度): 26.899273082543612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling laws aim to accurately predict model performance across different scales. Existing scaling-law studies almost exclusively rely on cross-entropy as the evaluation metric. However, cross-entropy provides only a partial view of performance: it measures the absolute probability assigned to the correct token, but ignores the relative ordering between correct and incorrect tokens. Yet, relative ordering is crucial for language models, such as in greedy-sampling scenario. To address this limitation, we investigate scaling from the perspective of relative ordering. We first propose the Relative-Based Probability (RBP) metric, which quantifies the probability that the correct token is ranked among the top predictions. Building on this metric, we establish the Relative-Based Scaling Law, which characterizes how RBP improves with increasing model size. Through extensive experiments on four datasets and four model families spanning five orders of magnitude, we demonstrate the robustness and accuracy of this law. Finally, we illustrate the broad application of this law with two examples, namely providing a deeper explanation of emergence phenomena and facilitating finding fundamental theories of scaling laws. In summary, the Relative-Based Scaling Law complements the cross-entropy perspective and contributes to a more complete understanding of scaling large language models. Thus, it offers valuable insights for both practical development and theoretical exploration.
- Abstract(参考訳): スケーリング法則は、異なるスケールでモデルパフォーマンスを正確に予測することを目的としている。
既存のスケーリング法則の研究はほとんど、評価指標としてクロスエントロピーに依存している。
正しいトークンに割り当てられた絶対確率を測るが、正しいトークンと間違ったトークンの間の相対順序を無視する。
しかし、greedy-samplingシナリオのような言語モデルでは、相対的な順序付けが不可欠である。
この制限に対処するため、相対的な順序付けの観点からスケーリングについて検討する。
本稿ではまず,正しいトークンが最上位の予測値にランク付けされる確率を定量化するRBP(Relative-Based Probability)メトリクスを提案する。
この指標に基づいて、モデルサイズの増加に伴ってRBPがいかに改善するかを特徴付ける相対ベーススケーリング法を制定する。
4つのデータセットと4つのモデルファミリーの広範な実験を通じて、この法則の堅牢性と精度を実証した。
最後に、この法則の広範な適用について、2つの例を挙げる。すなわち、出現現象のより深い説明と、スケーリング法則の基本的な理論の発見を容易にすることである。
要約すると、Relative-Based Scaling Lawは、クロスエントロピーの観点を補完し、大規模言語モデルのスケーリングに関するより完全な理解に寄与する。
そのため、実用開発と理論探査の両方に貴重な洞察を与えている。
関連論文リスト
- Scaling Laws for Uncertainty in Deep Learning [18.87399857008617]
本稿では,データセットやモデルサイズに関して,予測の不確実性の様々な尺度に関連するスケーリング法の存在を示す。
この研究は、ベイズ的アプローチに対して繰り返される懐疑主義を追放する強力な証拠を提供する。
論文 参考訳(メタデータ) (2025-06-11T12:09:05Z) - Scaling Laws for Robust Comparison of Open Foundation Language-Vision Models and Datasets [5.8465717270452195]
モデルとデータセットの比較において,スケール法則の導出がいかに有効かを示す。
初めて、CLIPとMaMMUTという2つの重要な言語ビジョン学習手順のために、完全なスケーリング法則が導出された。
一定の学習率のスケジュールでスケーリング法則を導出する場合も比較が可能であることを示す。
論文 参考訳(メタデータ) (2025-06-05T03:35:59Z) - Unified Scaling Laws for Compressed Representations [69.72517034565467]
各種圧縮表現上でのトレーニングにおいて,統合スケーリングフレームワークがモデル性能を正確に予測できるかどうかを検討する。
我々の主な発見は、単純な「容量」計量が存在するという理論と経験の両方を実証することである。
我々は、圧縮されたフォーマットの精度を直接比較し、スパース量子化されたフォーマットのトレーニングのためのより良いアルゴリズムを導出するために、定式化を拡張した。
論文 参考訳(メタデータ) (2025-06-02T16:52:51Z) - A Simple Model of Inference Scaling Laws [1.3597551064547502]
スケーリング法則を推論の文脈で研究し、特に複数の推論による性能向上について検討する。
我々の単純なフレームワークは、推論スケーリングを他の既知のスケーリング法則に組み込むための基盤となる。
論文 参考訳(メタデータ) (2024-10-21T18:00:06Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Predicting Emergent Abilities with Infinite Resolution Evaluation [85.89911520190711]
本稿では,デコードフェーズにおける大規模なサンプリングを通じて,理論的に無限の分解能を持つ評価戦略であるPassUntilを紹介する。
トレーニング開始前に0.05%の偏差でコード生成における2.4Bモデルの性能を予測する。
スケーリング曲線が標準スケーリング法則関数に適合できないような,高速化された出現の種を同定する。
論文 参考訳(メタデータ) (2023-10-05T02:35:00Z) - Scaling Laws Under the Microscope: Predicting Transformer Performance
from Small Scale Experiments [42.793379799720434]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。
スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。
スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文 参考訳(メタデータ) (2022-02-13T19:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。