論文の概要: A Theory of Training Profit-Optimal LLMs
- arxiv url: http://arxiv.org/abs/2605.16430v1
- Date: Thu, 14 May 2026 18:57:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.396475
- Title: A Theory of Training Profit-Optimal LLMs
- Title(参考訳): 最適LCMの訓練効果に関する一理論
- Authors: Sophie Hao, William Merrill,
- Abstract要約: LLM訓練会社の合理的行動を特徴付けるための経済モデルを開発する。
我々は、このモデルにおける利益問題を、計算バウンドおよびデータバウンド体制下で分析する。
- 参考スコア(独自算出の注目度): 12.802715423118316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling LLMs requires tremendous computational resources, and recent advances in AI have gone hand in hand with massive amounts of capital expenditure. While it is established that scaling up LLMs reliably increases model quality (quantified in terms of loss or downstream evaluations), it is unclear how these quality improvements translate to potential revenue, and whether revenue increases would offset costs of larger-scale training and inference. In this work, we develop an economic model for characterizing the rational behavior of an LLM training firm by combining scaling laws with microeconomic theory. Under our model of firm behavior, LLM quality can be increased with more parameters and training tokens, leading to more potential adoption by consumers, who each have a quality threshold for using the LLM. On the other hand, additional parameters and training tokens both incur additional costs. We analyze the profit maximization problem for this model under compute-bound and data-bound regimes. In the compute-bound regime, optimal model size and token budget track hardware efficiency $E$ (FLOPs/\$) at a near-linear rate; total training cost then scales sub-quadratically in $E$. Data efficiency improvements incentivize larger models and training expenditure. When we are limited to $D$ data, profit-optimal training expenditure scales as $D^2/E$, i.e, increase with data and decreases with hardware efficiency (as well as data efficiency). Finally, we analyze practical trends in training expenditure: current trends are consistent with our most permissive model variants in the compute-bound regime, but are not profit-optimal in the data-bound regime or assuming hardware advances will stall. Overall, our results provide a theory of profit-optimal LLM training, providing a foundation for engaging critically with industry statements and supporting long-term economic decision making.
- Abstract(参考訳): LLMのスケーリングには膨大な計算資源が必要であり、近年のAIの進歩は、膨大な資本支出と相まって進んでいる。
LLMのスケールアップはモデル品質を確実に向上させることが確立されているが(損失評価や下流評価の点では定量化されている)、これらの品質改善が潜在的収益にどのように影響するか、また、収益増加が大規模トレーニングや推論のコストを相殺するかどうかは不明である。
本研究では, スケーリング法則とミクロ経済理論を組み合わせることで, LLMトレーニング会社の合理的行動を特徴付ける経済モデルを構築した。
ファームな行動モデルでは、LCMの品質をより多くのパラメータとトレーニングトークンで向上させ、LCMを使用するための品質基準を持つ消費者が採用する可能性を高めます。
一方、追加のパラメータとトレーニングトークンは両方とも追加のコストを発生させる。
我々は,このモデルにおける利益の最大化問題を,計算バウンドとデータバウンドの条件下で解析する。
計算バウンド方式では、最適モデルサイズとトークン予算追跡ハードウェア効率は、ほぼ直線レートで$E$ (FLOPs/\$) となる。
データ効率の改善は、より大きなモデルとトレーニング費をインセンティブにします。
データに制限された場合、利益-最適トレーニング費は$D^2/E$、すなわちデータの増加とハードウェア効率の低下(およびデータ効率)となる。
最後に、トレーニング支出の実践的傾向を分析する。現在の傾向は、計算バウンド方式における最も許容されるモデル変種と一致しているが、データバウンド方式では利益が最適ではない、あるいはハードウェアの進歩が停滞すると仮定している。
総じて、当社の成果は、利益最適化LDMトレーニングの理論を提供し、産業声明に批判的に関与し、長期的な経済意思決定を支援する基盤を提供する。
関連論文リスト
- Thinking Augmented Pre-training [88.04395622064708]
拡張事前学習は、自動生成された思考軌跡でテキストを増強する普遍的な方法論である。
本稿では,既存のテキストデータを思考トラジェクトリで拡張することにより,大規模言語モデル(LLM)トレーニングのデータ効率を向上させるための,シンプルでスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-09-24T14:45:13Z) - Computational Economics in Large Language Models: Exploring Model Behavior and Incentive Design under Resource Constraints [1.00707850217229]
大規模言語モデル(LLM)は計算コストによって制限される。
我々は, LLMを資源制約されたエージェントの内部経済として扱う「計算経済学」の枠組みを導入する。
計算が不十分な場合、標準LLMは精度を保ちながら高価値トークンに注意を向ける。
論文 参考訳(メタデータ) (2025-08-14T07:55:45Z) - From Large to Super-Tiny: End-to-End Optimization for Cost-Efficient LLMs [23.253571170594455]
大規模言語モデル(LLM)は、非常に高度な人工知能を持つ。
本稿では,3段階の低コストエンドツーエンドLCMデプロイメントパイプラインを提案する。
性能が向上し、コストが削減された超小型オンラインモデルを生産する。
論文 参考訳(メタデータ) (2025-04-18T05:25:22Z) - Cost-Optimal Grouped-Query Attention for Long-Context Modeling [45.981681856747365]
Grouped-Query Attention(GQA)は、大規模言語モデルにおける注目層の計算コストを削減するための広く採用されている戦略である。
我々は,文脈長,モデルサイズ,GQA構成,モデル損失の関係を分析する。
コスト最適GQA構成の導出法を提案する。
論文 参考訳(メタデータ) (2025-03-12T17:50:42Z) - A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - Understanding the Performance and Estimating the Cost of LLM Fine-Tuning [9.751868268608675]
コスト効率の良い特定のタスクのための微調整大型言語モデル(LLM)。
本稿では,Sparse Mixture of Experts (MoE)をベースとしたLLMファインチューニングを特徴付ける。
また,クラウド上でのLCM微調整のコストを推定するための解析モデルを開発し,検証する。
論文 参考訳(メタデータ) (2024-08-08T16:26:07Z) - Assessing Economic Viability: A Comparative Analysis of Total Cost of Ownership for Domain-Adapted Large Language Models versus State-of-the-art Counterparts in Chip Design Coding Assistance [10.364901568556435]
本稿では,ドメイン適応型大言語モデル (LLM) と最先端LLM (SoTA) の比較検討を行った。
論文 参考訳(メタデータ) (2024-04-12T23:37:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。