論文の概要: The Race to Efficiency: A New Perspective on AI Scaling Laws
- arxiv url: http://arxiv.org/abs/2501.02156v1
- Date: Sat, 04 Jan 2025 01:45:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:08:03.610891
- Title: The Race to Efficiency: A New Perspective on AI Scaling Laws
- Title(参考訳): 効率性への競争 - AIスケーリング法の新しい視点
- Authors: Chien-Ping Lu,
- Abstract要約: 我々は、古典的なAIスケーリング法則を拡張する時間と効率を意識したフレームワークを導入する。
私たちのモデルでは、継続的な効率向上がなければ、高度なパフォーマンスは何千年ものトレーニングや非現実的な大規模なGPUフリートを必要とする可能性がある。
このレースを効率性にフォーマルにすることで、AIスタック全体の漸進的な改善と、フロントエンドGPU投資のバランスをとるための定量的ロードマップを提供します。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: As large-scale AI models expand, training becomes costlier and sustaining progress grows harder. Classical scaling laws (e.g., Kaplan et al. (2020), Hoffmann et al. (2022)) predict training loss from a static compute budget yet neglect time and efficiency, prompting the question: how can we balance ballooning GPU fleets with rapidly improving hardware and algorithms? We introduce the relative-loss equation, a time- and efficiency-aware framework that extends classical AI scaling laws. Our model shows that, without ongoing efficiency gains, advanced performance could demand millennia of training or unrealistically large GPU fleets. However, near-exponential progress remains achievable if the "efficiency-doubling rate" parallels Moore's Law. By formalizing this race to efficiency, we offer a quantitative roadmap for balancing front-loaded GPU investments with incremental improvements across the AI stack. Empirical trends suggest that sustained efficiency gains can push AI scaling well into the coming decade, providing a new perspective on the diminishing returns inherent in classical scaling.
- Abstract(参考訳): 大規模なAIモデルが拡大するにつれて、トレーニングはよりコストがかかり、継続的な進歩が困難になる。
古典的なスケーリング法則(例えば、Kaplan et al (2020), Hoffmann et al (2022))は、静的な計算予算からトレーニング損失を予測するが、時間と効率は無視する。
古典的AIスケーリング法則を拡張する時間と効率を意識したフレームワークである相対損失方程式を導入する。
私たちのモデルでは、継続的な効率向上がなければ、高度なパフォーマンスは何千年ものトレーニングや非現実的な大規模なGPUフリートを必要とする可能性がある。
しかし、「効率の倍率」がムーアの法則と平行であれば、ほぼ指数的な進歩は達成可能である。
このレースを効率性にフォーマルにすることで、AIスタック全体の漸進的な改善と、フロントエンドGPU投資のバランスをとるための定量的ロードマップを提供します。
実証的な傾向は、持続的な効率向上がAIのスケーリングを今後10年間に大きく押し上げ、古典的なスケーリングに固有のリターンの減少に関する新たな視点を提供する可能性があることを示唆している。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Accelerating AI Performance using Anderson Extrapolation on GPUs [2.114333871769023]
Anderson外挿を利用したAI性能向上のための新しい手法を提案する。
混合ペナルティが生じるクロスオーバー点を特定することにより、反復を収束に還元することに焦点を当てる。
高速コンピューティングの領域におけるスケーラビリティと効率性の拡張を動機とした,トレーニングと推論の両面での大幅な改善を示す。
論文 参考訳(メタデータ) (2024-10-25T10:45:17Z) - Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations [62.132347451049455]
スケールは強力な機械学習モデルを得る上で重要な要素となっている。
本研究では,コサインのスケジュールに依存するため,スケールとトレーニングの研究は必然的に複雑である,と論じる。
その結果,重量平均化はトレーニングの軌道に沿って,異なるスケールでのトレーニングコストを伴わずに向上することがわかった。
論文 参考訳(メタデータ) (2024-05-28T17:33:54Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - Increased Compute Efficiency and the Diffusion of AI Capabilities [1.1838866556981258]
高度なAIモデルをトレーニングするには、計算リソースや計算に多大な投資が必要になる。
ハードウェアのイノベーションが計算とアルゴリズムの進歩の価格を下げるにつれ、AIモデルを所定のパフォーマンスにトレーニングするコストは、時間の経過とともに低下する。
アクセス効果が与えられたパフォーマンスにモデルを訓練できるアクターの数を増加させる一方、パフォーマンス効果は各アクターが利用できるパフォーマンスを同時に増加させる。
論文 参考訳(メタデータ) (2023-11-26T18:36:28Z) - Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。
その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-25T21:49:09Z) - Towards provably efficient quantum algorithms for large-scale
machine-learning models [11.440134080370811]
我々は、フォールトトレラントな量子コンピューティングが、一般的な(確率的な)勾配降下アルゴリズムに対して、証明可能な効率のよい解決を提供する可能性を示している。
700万から1億3300万のパラメータから、大規模な機械学習モデルのインスタンスをベンチマークします。
論文 参考訳(メタデータ) (2023-03-06T19:00:27Z) - Scaling Laws Beyond Backpropagation [64.0476282000118]
因果デコーダのみの変換器を効率的に訓練するための直接フィードバックアライメントの有効性について検討した。
DFAはバックプロパゲーションよりも効率的なスケーリングを提供していないことが分かりました。
論文 参考訳(メタデータ) (2022-10-26T10:09:14Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Measuring the Algorithmic Efficiency of Neural Networks [1.1108287264548806]
分類器をAlexNetレベルにトレーニングするために必要な浮動小数点演算数は,2012年から2019年にかけて44倍に減少した。
これは、アルゴリズムの効率が7年間に16ヶ月毎に倍増することに対応する。
我々は、ハードウェアとアルゴリズムの効率が乗じて増加し、意味のある地平線を越えて同様のスケールにすることができることを観察し、AIの進歩のよいモデルが両方の測度を統合するべきであることを示唆している。
論文 参考訳(メタデータ) (2020-05-08T22:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。