論文の概要: The Unreasonable Effectiveness of Scaling Laws in AI
- arxiv url: http://arxiv.org/abs/2603.28507v1
- Date: Mon, 30 Mar 2026 14:42:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.447194
- Title: The Unreasonable Effectiveness of Scaling Laws in AI
- Title(参考訳): AIにおけるスケーリング法則の妥当な有効性
- Authors: Chien-Ping Lu,
- Abstract要約: スケーリング法則は、トレーニングの損失が計算によってパワールール形式でどのように減少するかを記述する。
予測されるリターンの低下にもかかわらず、実践の進歩はしばしば、効率を急速に改善し続けています。
スケーリング法則は、多くの実現の詳細を抽象化するため、異常に効果的である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classical AI scaling laws, especially for pre-training, describe how training loss decreases with compute in a power-law form. Their effectiveness has a basic and very practical sense: they make progress predictable, albeit at a declining rate. Yet their effectiveness is also unreasonable in two further senses. First, these laws are largely empirical and observational, but they appear repeatedly across model families and increasingly across training-adjacent regimes. Second, despite the diminishing returns they predict, progress in practice has often continued through rapidly improving efficiency, visible for example in falling cost per token. This paper argues that both features arise from the same source: scaling laws are unusually effective because they abstract away from many realization details. The compute variable is best understood as logical compute, an implementation-agnostic notion of model-side work, while the practical burden of scaling depends on how efficiently real resources are converted into that compute. This abstraction helps explain both why the laws travel so well across settings and why they give rise to a persistent efficiency game in hardware, algorithms, and systems. Once efficiency is made explicit, the main practical question becomes how many efficiency doublings are required to keep scaling productive despite diminishing returns. Under that view, diminishing returns are not only a geometric flattening of the loss curve, but also rising pressure for cost reduction, system-level innovation, and the breakthroughs needed to sustain Moore-like efficiency doublings.
- Abstract(参考訳): 古典的なAIスケーリング法則、特に事前トレーニングでは、パワーロー形式の計算によってトレーニング損失が減少する様子を記述している。
その効果は基本的で非常に実践的な意味を持ち、進歩は予測可能であるが、減少する速度ではある。
しかし、その効果は2つの意味では理にかなわない。
第一に、これらの法律は、主に経験的かつ観察的であるが、モデルファミリーや、訓練に順応する体制にまたがって、繰り返し現れる。
第二に、予測するリターンの減少にもかかわらず、例えばトークン当たりのコストの低下など、効率を急速に改善する実践の進歩は、しばしば続いている。
スケーリング法則は、多くの実現の詳細を抽象化するため、異常に効果的である。
計算変数は、実装に依存しないモデルサイドの作業の概念である論理計算として理解されているのに対して、スケーリングの実践的な負担は、実際のリソースがその計算にどの程度効率的に変換されるかに依存する。
この抽象化は、なぜ法則が設定を越えてうまく進むのか、そしてなぜそれがハードウェア、アルゴリズム、システムにおいて永続的な効率性ゲームをもたらすのかを説明するのに役立ちます。
一度効率を明示すると、主な現実的な疑問は、リターンの低下にもかかわらず、生産的なスケーリングを維持するために、どれだけの効率の倍が要求されるかである。
その観点では、リターンの減少は損失曲線を幾何学的に平坦化させるだけでなく、コスト削減やシステムレベルの革新、ムーアのような効率を2倍に維持するために必要なブレークスルーの増大にも寄与する。
関連論文リスト
- The Quantization Trap: Breaking Linear Scaling Laws in Multi-Hop Reasoning [10.91558162376728]
このスケーリング法則がマルチホップ推論の文脈で破れることを実証する。
16ビットから8/4ビットまで精度を低下させる「量子化トラップ」は、推理精度を劣化させながら、パラドックス的にネットエネルギー消費を増大させる。
論文 参考訳(メタデータ) (2026-02-14T04:25:27Z) - AI Agents as Universal Task Solvers [94.49762121230042]
我々は,過去のデータを用いて,普遍的な解法が達成できる最適なスピードアップが,アルゴリズム情報と密接な関係があることを示す。
我々は、推論モデルをスケールする際に最適化する重要な量は時間であり、学習における重要な役割は、これまでは間接的にのみ考慮されてきたと論じている。
論文 参考訳(メタデータ) (2025-10-14T02:17:54Z) - A Multi-Power Law for Loss Curve Prediction Across Learning Rate Schedules [67.87680482844884]
本稿では,大規模言語モデルの事前学習損失が,学習率の異なるスケジュール下でどのように進展するかを示す経験則を提案する。
提案法は,学習率の総和に基づく電力法則と,学習率減衰による損失低減効果を考慮した電力法とを併用した多大電力法である。
論文 参考訳(メタデータ) (2025-03-17T04:36:45Z) - The Race to Efficiency: A New Perspective on AI Scaling Laws [0.0]
我々は、古典的なAIスケーリング法則を拡張する時間と効率を意識したフレームワークを導入する。
私たちのモデルでは、継続的な効率向上がなければ、高度なパフォーマンスは何千年ものトレーニングや非現実的な大規模なGPUフリートを必要とする可能性がある。
このレースを効率性にフォーマルにすることで、AIスタック全体の漸進的な改善と、フロントエンドGPU投資のバランスをとるための定量的ロードマップを提供します。
論文 参考訳(メタデータ) (2025-01-04T01:45:32Z) - Predicting Emergent Abilities with Infinite Resolution Evaluation [85.89911520190711]
本稿では,デコードフェーズにおける大規模なサンプリングを通じて,理論的に無限の分解能を持つ評価戦略であるPassUntilを紹介する。
トレーニング開始前に0.05%の偏差でコード生成における2.4Bモデルの性能を予測する。
スケーリング曲線が標準スケーリング法則関数に適合できないような,高速化された出現の種を同定する。
論文 参考訳(メタデータ) (2023-10-05T02:35:00Z) - Scaling Laws Beyond Backpropagation [64.0476282000118]
因果デコーダのみの変換器を効率的に訓練するための直接フィードバックアライメントの有効性について検討した。
DFAはバックプロパゲーションよりも効率的なスケーリングを提供していないことが分かりました。
論文 参考訳(メタデータ) (2022-10-26T10:09:14Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。