論文の概要: On the Origin of Algorithmic Progress in AI
- arxiv url: http://arxiv.org/abs/2511.21622v1
- Date: Wed, 26 Nov 2025 17:46:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.228079
- Title: On the Origin of Algorithmic Progress in AI
- Title(参考訳): AIにおけるアルゴリズムの進歩の起源について
- Authors: Hans Gundlach, Alex Fogelson, Jayson Lynch, Ana Trisovic, Jonathan Rosenfeld, Anmol Sandhu, Neil Thompson,
- Abstract要約: アルゴリズムの効率向上は計算スケールと結びついている。
同じ期間に6,930倍の効率向上を達成しました。
以上の結果から,小型モデルにおけるアルゴリズムの進歩は,これまで想定されていたよりもはるかに遅かったことが示唆された。
- 参考スコア(独自算出の注目度): 2.1203158341760306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Algorithms have been estimated to increase AI training FLOP efficiency by a factor of 22,000 between 2012 and 2023 [Ho et al., 2024]. Running small-scale ablation experiments on key innovations from this time period, we are able to account for less than 10x of these gains. Surveying the broader literature, we estimate that additional innovations not included in our ablations account for less than 10x, yielding a total under 100x. This leads us to conduct scaling experiments, which reveal that much of this efficiency gap can be explained by algorithms with scale-dependent efficiency improvements. In particular, we conduct scaling experiments between LSTMs and Transformers, finding exponent differences in their compute-optimal scaling law while finding little scaling difference for many other innovations. These experiments demonstrate that - contrary to standard assumptions - an algorithm's efficiency gains are tied to compute scale. Using experimental extrapolation and literature estimates, we account for 6,930x efficiency gains over the same time period, with the scale-dependent LSTM-to-Transformer transition accounting for the majority of gains. Our results indicate that algorithmic progress for small models has been far slower than previously assumed, and that measures of algorithmic efficiency are strongly reference-dependent.
- Abstract(参考訳): 2012年から2023年の間にAIトレーニングFLOP効率を22,000倍に向上させると推定されている[Ho et al , 2024]。
この期間から重要なイノベーションについて、小規模なアブレーション実験を行うことで、これらの利益の10倍未満を占めることができます。
より広範な文献を調査した結果、私たちのアブレーションに含まれていない追加のイノベーションは10倍未満であり、総じて100倍以下であると見積もっている。
これにより、スケーリング実験を行い、この効率ギャップの大部分は、スケール依存の効率改善を伴うアルゴリズムによって説明できることを示した。
特に、LSTMとTransformerのスケーリング実験を行い、計算最適スケーリング法則の指数差を見出しながら、他の多くのイノベーションのスケーリング差をほとんど見出さない。
これらの実験は、標準的な仮定とは違って、アルゴリズムの効率向上が計算スケールに結びついていることを示しています。
実験的な外挿法と文献推定を用いて、同じ期間に6,930倍の効率向上を計上し、尺度依存型LSTM-to-Transformer遷移は大部分の利得を計上する。
以上の結果から,小型モデルにおけるアルゴリズムの進歩は,これまで想定されていたよりもはるかに遅く,アルゴリズム効率の尺度は強い参照依存であることが示唆された。
関連論文リスト
- The Art of Scaling Reinforcement Learning Compute for LLMs [52.71086085139566]
強化学習(RL)は、大規模言語モデルの訓練の中心となっている。
計算予算の急激な増加にもかかわらず、RL計算のスケーリングにおけるアルゴリズム改善の評価方法に関する原則的な理解は存在しない。
我々は,約40万時間以上のGPU時間を有する,最初の大規模体系的な研究を提示する。
論文 参考訳(メタデータ) (2025-10-15T17:43:03Z) - Optimal Growth Schedules for Batch Size and Learning Rate in SGD that Reduce SFO Complexity [0.6906005491572401]
計算勾配法におけるバッチサイズと学習速度のスケジューリングは効率を低下させ、収束を損なう。
理論的には,SFOの複雑性を低減させるバッチサイズと学習率の最適な成長スケジュールを導出した。
本結果は,ディープラーニングにおける大規模バッチ学習をスケーラブルかつ効率的に行うための理論的知見と実践的ガイドラインの両方を提供する。
論文 参考訳(メタデータ) (2025-08-07T11:52:25Z) - Rethinking LLM Advancement: Compute-Dependent and Independent Paths to Progress [10.461430685627857]
本研究は,大規模言語モデルが,計算制約環境におけるアルゴリズム的革新によって進展するか否かを評価する。
本稿では,計算に依存しないイノベーションから高い計算量で不均質な利益をもたらす計算依存のイノベーションを区別する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-07T02:26:17Z) - On Advancements of the Forward-Forward Algorithm [0.6144680854063939]
Forward-Forwardアルゴリズムは機械学習の研究で進化し、現実のアプリケーションを模倣するより複雑なタスクに取り組んでいる。
この結果から,畳み込みチャネルグループ化,学習率スケジュール,独立したブロック構造を組み合わせることで,改善が達成できることが示唆された。
我々は、21$pm$3)%の低いテストエラー率と164,706から754,386までのトレーニング可能なパラメータ数を達成できる、より軽量なモデルを提示した。
論文 参考訳(メタデータ) (2025-04-30T14:03:52Z) - Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - Energy-based learning algorithms for analog computing: a comparative
study [2.0937431058291933]
エネルギーベースの学習アルゴリズムは、最近アナログハードウェアとの互換性のため、関心が高まっている。
我々は、コントラスト学習(CL)、平衡伝播(EP)、結合学習(CpL)の7つの学習アルゴリズムを比較した。
負の摂動は正の摂動よりも優れており,その中心となるEPの変形を最良性能のアルゴリズムとして強調する。
論文 参考訳(メタデータ) (2023-12-22T22:49:58Z) - Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。
その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-25T21:49:09Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Amortized Implicit Differentiation for Stochastic Bilevel Optimization [53.12363770169761]
決定論的条件と決定論的条件の両方において、二段階最適化問題を解決するアルゴリズムのクラスについて検討する。
厳密な勾配の推定を補正するために、ウォームスタート戦略を利用する。
このフレームワークを用いることで、これらのアルゴリズムは勾配の偏りのない推定値にアクセス可能な手法の計算複雑性と一致することを示す。
論文 参考訳(メタデータ) (2021-11-29T15:10:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。