論文の概要: Relative-Based Scaling Law for Neural Language Models
- arxiv url: http://arxiv.org/abs/2510.20387v1
- Date: Thu, 23 Oct 2025 09:37:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.734359
- Title: Relative-Based Scaling Law for Neural Language Models
- Title(参考訳): ニューラルネットワークモデルの相対的スケーリング法則
- Authors: Baoqing Yue, Jinyuan Zhou, Zixi Wei, Jingtao Zhan, Qingyao Ai, Yiqun Liu,
- Abstract要約: スケーリング法則は、異なるスケールでモデルパフォーマンスを正確に予測することを目的としている。
既存のスケーリング法則の研究はほとんど、評価指標としてクロスエントロピーに依存している。
本稿では,RBPのモデルサイズの増加に伴う改善を特徴付ける相対的スケーリング法を提案する。
- 参考スコア(独自算出の注目度): 26.899273082543612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling laws aim to accurately predict model performance across different scales. Existing scaling-law studies almost exclusively rely on cross-entropy as the evaluation metric. However, cross-entropy provides only a partial view of performance: it measures the absolute probability assigned to the correct token, but ignores the relative ordering between correct and incorrect tokens. Yet, relative ordering is crucial for language models, such as in greedy-sampling scenario. To address this limitation, we investigate scaling from the perspective of relative ordering. We first propose the Relative-Based Probability (RBP) metric, which quantifies the probability that the correct token is ranked among the top predictions. Building on this metric, we establish the Relative-Based Scaling Law, which characterizes how RBP improves with increasing model size. Through extensive experiments on four datasets and four model families spanning five orders of magnitude, we demonstrate the robustness and accuracy of this law. Finally, we illustrate the broad application of this law with two examples, namely providing a deeper explanation of emergence phenomena and facilitating finding fundamental theories of scaling laws. In summary, the Relative-Based Scaling Law complements the cross-entropy perspective and contributes to a more complete understanding of scaling large language models. Thus, it offers valuable insights for both practical development and theoretical exploration.
- Abstract(参考訳): スケーリング法則は、異なるスケールでモデルパフォーマンスを正確に予測することを目的としている。
既存のスケーリング法則の研究はほとんど、評価指標としてクロスエントロピーに依存している。
正しいトークンに割り当てられた絶対確率を測るが、正しいトークンと間違ったトークンの間の相対順序を無視する。
しかし、greedy-samplingシナリオのような言語モデルでは、相対的な順序付けが不可欠である。
この制限に対処するため、相対的な順序付けの観点からスケーリングについて検討する。
本稿ではまず,正しいトークンが最上位の予測値にランク付けされる確率を定量化するRBP(Relative-Based Probability)メトリクスを提案する。
この指標に基づいて、モデルサイズの増加に伴ってRBPがいかに改善するかを特徴付ける相対ベーススケーリング法を制定する。
4つのデータセットと4つのモデルファミリーの広範な実験を通じて、この法則の堅牢性と精度を実証した。
最後に、この法則の広範な適用について、2つの例を挙げる。すなわち、出現現象のより深い説明と、スケーリング法則の基本的な理論の発見を容易にすることである。
要約すると、Relative-Based Scaling Lawは、クロスエントロピーの観点を補完し、大規模言語モデルのスケーリングに関するより完全な理解に寄与する。
そのため、実用開発と理論探査の両方に貴重な洞察を与えている。
関連論文リスト
- Scaling Laws for Reranking in Information Retrieval [24.00475965133032]
本稿では,リランカーのスケーリング法則に関する最初の体系的研究について述べる。
クロスエンコーダリランカーを用いた詳細なケーススタディを用いて、性能が予測可能なパワー則に従うことを示した。
本研究は,産業グレード検索システム構築のためのスケーリングの原則を確立し,実用的な洞察を提供するものである。
論文 参考訳(メタデータ) (2026-03-05T05:03:07Z) - Towards a Comprehensive Scaling Law of Mixture-of-Experts [54.117786590884776]
本論文では,すべての重要な要因を考慮に入れた総合的かつ正確なMoEスケーリング法を提案する。
我々の結果は、$G$と$S$の最適設定が、モデルアーキテクチャとデータサイズの両方に依存しないことを示しています。
提案したMoEスケーリング法則は,将来のMoEモデル設計およびトレーニングを促進するための,正確かつ洞察に富んだガイダンスとして機能する可能性がある。
論文 参考訳(メタデータ) (2025-09-28T06:35:34Z) - Scaling Laws for Uncertainty in Deep Learning [18.87399857008617]
本稿では,データセットやモデルサイズに関して,予測の不確実性の様々な尺度に関連するスケーリング法の存在を示す。
この研究は、ベイズ的アプローチに対して繰り返される懐疑主義を追放する強力な証拠を提供する。
論文 参考訳(メタデータ) (2025-06-11T12:09:05Z) - Scaling Laws for Robust Comparison of Open Foundation Language-Vision Models and Datasets [5.8465717270452195]
モデルとデータセットの比較において,スケール法則の導出がいかに有効かを示す。
初めて、CLIPとMaMMUTという2つの重要な言語ビジョン学習手順のために、完全なスケーリング法則が導出された。
一定の学習率のスケジュールでスケーリング法則を導出する場合も比較が可能であることを示す。
論文 参考訳(メタデータ) (2025-06-05T03:35:59Z) - Unified Scaling Laws for Compressed Representations [69.72517034565467]
各種圧縮表現上でのトレーニングにおいて,統合スケーリングフレームワークがモデル性能を正確に予測できるかどうかを検討する。
我々の主な発見は、単純な「容量」計量が存在するという理論と経験の両方を実証することである。
我々は、圧縮されたフォーマットの精度を直接比較し、スパース量子化されたフォーマットのトレーニングのためのより良いアルゴリズムを導出するために、定式化を拡張した。
論文 参考訳(メタデータ) (2025-06-02T16:52:51Z) - Do Larger Language Models Generalize Better? A Scaling Law for Implicit Reasoning at Pretraining Time [73.22651918134808]
この研究は、モデルサイズのスケーリングによる直感的効果を示し、言語モデル(LM)におけるスケーリングと推論の関係に関する新たな洞察を提供する。
我々は,実世界の大規模知識グラフの構造と分布を再現する合成暗黙のマルチホップ推論環境において,ゼロからLMを事前学習する。
次に、実世界の事前学習における暗黙的推論の単純化とみなすことができるマルチホップ推論を必要とする、グラフの欠落したエッジを完遂するLMの能力を評価する。
論文 参考訳(メタデータ) (2025-04-04T17:57:22Z) - A Simple Model of Inference Scaling Laws [1.3597551064547502]
スケーリング法則を推論の文脈で研究し、特に複数の推論による性能向上について検討する。
我々の単純なフレームワークは、推論スケーリングを他の既知のスケーリング法則に組み込むための基盤となる。
論文 参考訳(メタデータ) (2024-10-21T18:00:06Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Predicting Emergent Abilities with Infinite Resolution Evaluation [85.89911520190711]
本稿では,デコードフェーズにおける大規模なサンプリングを通じて,理論的に無限の分解能を持つ評価戦略であるPassUntilを紹介する。
トレーニング開始前に0.05%の偏差でコード生成における2.4Bモデルの性能を予測する。
スケーリング曲線が標準スケーリング法則関数に適合できないような,高速化された出現の種を同定する。
論文 参考訳(メタデータ) (2023-10-05T02:35:00Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Scaling Laws Under the Microscope: Predicting Transformer Performance
from Small Scale Experiments [42.793379799720434]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。
スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。
スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文 参考訳(メタデータ) (2022-02-13T19:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。