論文の概要: The rising costs of training frontier AI models
- arxiv url: http://arxiv.org/abs/2405.21015v1
- Date: Fri, 31 May 2024 17:04:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 13:29:24.356712
- Title: The rising costs of training frontier AI models
- Title(参考訳): フロンティアAIモデルのトレーニングコストの上昇
- Authors: Ben Cottier, Robi Rahman, Loredana Fattorini, Nestor Maslej, David Owen,
- Abstract要約: 最も計算集約的なモデルをトレーニングするための償却コストは、2016年以来、年間2.4倍のペースで急上昇している。
GPT-4やGeminiのような主要フロンティアモデルでは、最も重要な費用はAIアクセラレータチップとスタッフコストである。
開発コストの増加傾向が続くなら、2027年までに最大のトレーニングランは10億ドル以上になる。
- 参考スコア(独自算出の注目度): 0.04590531202809992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The costs of training frontier AI models have grown dramatically in recent years, but there is limited public data on the magnitude and growth of these expenses. This paper develops a detailed cost model to address this gap, estimating training costs using three approaches that account for hardware, energy, cloud rental, and staff expenses. The analysis reveals that the amortized cost to train the most compute-intensive models has grown precipitously at a rate of 2.4x per year since 2016 (95% CI: 2.0x to 3.1x). For key frontier models, such as GPT-4 and Gemini, the most significant expenses are AI accelerator chips and staff costs, each costing tens of millions of dollars. Other notable costs include server components (15-22%), cluster-level interconnect (9-13%), and energy consumption (2-6%). If the trend of growing development costs continues, the largest training runs will cost more than a billion dollars by 2027, meaning that only the most well-funded organizations will be able to finance frontier AI models.
- Abstract(参考訳): 近年、フロンティアAIモデルのトレーニングコストは劇的に増加したが、これらの費用の規模と成長に関する公開データは限られている。
本稿では,ハードウェア,エネルギ,クラウドレンタル,スタッフ費用の3つのアプローチを用いて,このギャップに対処するための詳細なコストモデルを構築し,トレーニングコストを推定する。
この分析によると、最も計算集約的なモデルをトレーニングするための償却コストは、2016年以降、年間2.4倍(95%CI:2.0倍から3.1倍)の速さで急上昇している。
GPT-4やGeminiのような主要フロンティアモデルにとって、最も重要な費用はAIアクセラレーターチップとスタッフコストである。
その他の注目すべきコストとしては、サーバコンポーネント(15-22%)、クラスタレベルの相互接続(9-13%)、エネルギー消費(2-6%)がある。
開発コストの増加傾向が続くならば、2027年までに最大のトレーニングランが10億ドル以上かかることになる。
関連論文リスト
- Data movement limits to frontier model training [0.7234862895932991]
分散トレーニングの理論的モデルを提案し,それを,密集度と疎開度をどの程度スケールできるかを解析するために利用する。
FLOPの約1031ドルを超えるトレーニングランは、低利用でも実現不可能である。
論文 参考訳(メタデータ) (2024-11-02T04:48:41Z) - Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget [53.311109531586844]
大規模T2I拡散変圧器モデルの低コスト化を実証する。
我々は16億のパラメータスパーストランスをわずか1890ドルの経済的コストで訓練し、ゼロショット世代で12.7 FIDを達成する。
我々は、マイクロ予算での大規模拡散モデルのトレーニングをさらに民主化するために、エンドツーエンドのトレーニングパイプラインをリリースすることを目指している。
論文 参考訳(メタデータ) (2024-07-22T17:23:28Z) - Accessing Vision Foundation Models at ImageNet-level Costs [51.521125501182816]
Proteusは、驚くべき能力でImageNetレベルのコストでトレーニングされている。
Proteus-L/14は、OracleのメソッドであるDINOv2-L/14のパフォーマンスを15ベンチマークで比較する。
論文 参考訳(メタデータ) (2024-07-15T00:13:53Z) - A Penny a Function: Towards Cost Transparent Cloud Programming [3.858859576352153]
コスト要因を理解するための既存のツールは、しばしばソースコードから切り離される。
既存のクラウドアプリケーションのコストモデルは、計算リソースのような特定の要因に焦点を当てている。
本稿では、コードから直接金銭的コスト推定を導出できる有向グラフに基づくコストモデルに向けた最初の取り組みについて述べる。
論文 参考訳(メタデータ) (2023-09-10T08:02:12Z) - How Can We Train Deep Learning Models Across Clouds and Continents? An Experimental Study [57.97785297481162]
代表的なCV, NLP, ASRモデルに対して, 異なるゾーン, 大陸, 雲におけるトレーニングの費用とスループットについて検討した。
スポット価格を活用することで、複数の安価なインスタンスでモデルをトレーニングし、より集中的かつ強力なハードウェアと、競争力のある価格でオンデマンドのクラウド製品の両方を台無しにする、新たなコスト効率の方法が実現されることを示す。
論文 参考訳(メタデータ) (2023-06-05T18:17:37Z) - Accelerated and Inexpensive Machine Learning for Manufacturing Processes
with Incomplete Mechanistic Knowledge [0.0]
本稿では,この問題に対処するトランスファーラーニングに基づくアプローチを提案する。
MLモデルは、物理ベースのプロセスモデル(ソース)から大量の計算コストのかかるデータに基づいて訓練され、その後、より安価な実験データ(ターゲット)に基づいて微調整される。
情報源の極めて機能的かつ定量的な不正確さにもかかわらず、我々の手法はモデル開発コストを何年も削減し、実験コストを56~76%削減し、計算コストを桁違いに削減し、予測誤差を16~24%削減する。
論文 参考訳(メタデータ) (2023-04-29T10:54:57Z) - DeepSpeed Data Efficiency: Improving Deep Learning Model Quality and
Training Efficiency via Efficient Data Sampling and Routing [57.86954315102865]
DeepSpeed Data Efficiencyは、データの利用性を向上し、トレーニング効率を向上し、モデル品質を改善するフレームワークである。
GPT-3 1.3B言語モデルの事前トレーニングでは、全データとコストのベースラインに比べて、モデル品質の95%を維持しながら、データ/時間/コストの12.5倍の削減を実現しています。
GPT-3 1.3B と BERT-large の事前トレーニングでは、データ/時間/コストの最大2倍のコストで同じモデル品質を達成することができ、同じデータ/時間/コストでより良いモデル品質を達成することができます。
論文 参考訳(メタデータ) (2022-12-07T12:27:28Z) - Dynamic Pricing with Volume Discounts in Online Settings [102.00782184214326]
本稿では,電子商取引における客観的機能が利益であり,取引データのみが利用可能である場合の価格設定に焦点を当てる。
我々の研究は、異なるボリューム閾値で最適な価格を定め、異なるクラスのユーザーに提供する価格戦略を見つけることを目的としている。
我々は、オンライン形式でデータを活用できる2段階のオンライン学習アルゴリズムBを設計する。
論文 参考訳(メタデータ) (2022-11-17T16:01:06Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - Costs to Consider in Adopting NLP for Your Business [3.608765813727773]
パフォーマンス向上とモデル間のコストのトレードオフを示し、AIピボットビジネスのさらなる洞察を与えます。
特にリソース不足言語について、低コストモデルに関するさらなる研究を求めています。
論文 参考訳(メタデータ) (2020-12-16T13:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。