論文の概要: Trends in Frontier AI Model Count: A Forecast to 2028
- arxiv url: http://arxiv.org/abs/2504.16138v1
- Date: Mon, 21 Apr 2025 22:31:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.865888
- Title: Trends in Frontier AI Model Count: A Forecast to 2028
- Title(参考訳): 最先端AIモデルのトレンド:2028年の予測
- Authors: Iyngkarran Kumar, Sam Manning,
- Abstract要約: 政府は、AIモデルのトレーニングにどれだけの計算が使われたかに基づいて、AIモデルに要件を課し始めている。
2028年末までに103-306のファンデーションモデルが1025ドルのFLOP閾値を超えると見積もっている。
また、これらの絶対計算しきい値を超えるモデル数が、超直線的に増加することもわかっています。
- 参考スコア(独自算出の注目度): 3.79830302036482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Governments are starting to impose requirements on AI models based on how much compute was used to train them. For example, the EU AI Act imposes requirements on providers of general-purpose AI with systemic risk, which includes systems trained using greater than $10^{25}$ floating point operations (FLOP). In the United States' AI Diffusion Framework, a training compute threshold of $10^{26}$ FLOP is used to identify "controlled models" which face a number of requirements. We explore how many models such training compute thresholds will capture over time. We estimate that by the end of 2028, there will be between 103-306 foundation models exceeding the $10^{25}$ FLOP threshold put forward in the EU AI Act (90% CI), and 45-148 models exceeding the $10^{26}$ FLOP threshold that defines controlled models in the AI Diffusion Framework (90% CI). We also find that the number of models exceeding these absolute compute thresholds each year will increase superlinearly -- that is, each successive year will see more new models captured within the threshold than the year before. Thresholds that are defined with respect to the largest training run to date (for example, such that all models within one order of magnitude of the largest training run to date are captured by the threshold) see a more stable trend, with a median forecast of 14-16 models being captured by this definition annually from 2025-2028.
- Abstract(参考訳): 政府は、AIモデルのトレーニングにどれだけの計算が使われたかに基づいて、AIモデルに要件を課し始めている。
例えば、EU AI Actは、システム的リスクを持つ汎用AIプロバイダに要件を課しており、これには10〜25ドル以上の浮動小数点演算(FLOP)を使用してトレーニングされたシステムが含まれる。
アメリカ合衆国のAI Diffusion Frameworkでは、多くの要件に直面する"制御モデル"を特定するために、トレーニング計算しきい値が10^{26}$ FLOPを使用する。
このようなトレーニング計算しきい値が、時間とともにどれだけのモデルをキャプチャするかを探索する。
2028年の終わりまでには、EU AI Act(90% CI)で提示された103-306の基盤モデル(90% CI)を超える103-306の基盤モデルと、AI Diffusion Framework(90% CI)で制御されたモデルを定義する10^{26}のFLOPしきい値を超える45-148のモデル(90% CI)の間に、関係があると見積もっている。
また、これらの絶対的な計算しきい値を超えるモデルの数は、毎年超直線的に増加し、すなわち、毎年、そのしきい値内で取得される新しいモデルが前年よりも増えることもわかっています。
今までに実行された最大のトレーニングに対して定義された閾値(例えば、これまで実行された最大のトレーニングの1桁以内のモデルがしきい値によって取得されるなど)は、より安定した傾向を示し、2025年から2028年にかけて毎年、この定義によって14-16モデルの中央値が取得される。
関連論文リスト
- Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs [96.68469559192846]
2つの異なる大きさのMoE大言語モデル(LLM)を提示する。
Ling-Liteは168億のパラメータと275億のアクティベートパラメータを持ち、Ling-Plusは2900億のパラメータと288億のアクティベートパラメータを持っている。
本稿では,(1)モデルアーキテクチャとトレーニングプロセスの最適化,(2)トレーニング異常処理の洗練,(3)モデル評価効率の向上のための革新的な手法を提案する。
論文 参考訳(メタデータ) (2025-03-07T04:43:39Z) - Direct Discriminative Optimization: Your Likelihood-Based Visual Generative Model is Secretly a GAN Discriminator [38.883123034958935]
本稿では,確率に基づく生成学習と最大推定目標を橋渡しする統合フレームワークを提案する。
我々の重要な洞察は、学習可能な対象モデルと固定参照モデルとの確率比を用いて、識別器を暗黙的にパラメータ化することである。
GANとは異なり、このパラメータ化はジェネレータと識別器ネットワークの共同トレーニングの必要性を排除している。
論文 参考訳(メタデータ) (2025-03-03T02:06:22Z) - Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts [25.503695417712997]
Time-MoEは、より大きく、より有能な基礎モデルを予測するために設計された、スケーラブルで統一されたアーキテクチャである。
Time-MoEは、予測毎にネットワークのサブセットだけを活性化することで、計算効率を向上させる。
時系列基礎モデルを24億のパラメータに拡張し,予測精度を大幅に向上させた。
論文 参考訳(メタデータ) (2024-09-24T12:42:18Z) - Efficient World Models with Context-Aware Tokenization [22.84676306124071]
$Delta$-IRISは、時間ステップ間のデルタをエンコードする離散オートエンコーダで構成されるワールドモデルアーキテクチャを備えた新しいエージェントである。
Crafterのベンチマークでは、$Delta$-IRISは、複数のフレーム予算で新しい最先端の技術を設定します。
論文 参考訳(メタデータ) (2024-06-27T16:54:12Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - Neural Network Augmented Compartmental Pandemic Models [0.0]
本稿では,コモディティハードウェア上で動作可能なニューラルネットワーク拡張SIRモデルを提案する。
NPIと気象効果を考慮に入れ、予測能力と対物分析能力の向上を提供する。
論文 参考訳(メタデータ) (2022-12-15T10:57:12Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。