論文の概要: Beyond Benchmarks: The Economics of AI Inference
- arxiv url: http://arxiv.org/abs/2510.26136v1
- Date: Thu, 30 Oct 2025 04:49:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.662109
- Title: Beyond Benchmarks: The Economics of AI Inference
- Title(参考訳): ベンチマークを超えて - AI推論の経済学
- Authors: Boqin Zhuang, Jiacheng Qiao, Mingqian Liu, Mingxing Yu, Ping Hong, Rui Li, Xiaoxia Song, Xiangjun Xu, Xu Chen, Yaoyao Ma, Yujie Gao,
- Abstract要約: LLM(Large Language Models)の推論コストは,その商業的可能性や普及度を決定する上で重要な要因となっている。
我々は,その限界コスト,スケールの経済,および出力の質を,様々な性能構成で分析する。
- 参考スコア(独自算出の注目度): 10.810270375582137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The inference cost of Large Language Models (LLMs) has become a critical factor in determining their commercial viability and widespread adoption. This paper introduces a quantitative ``economics of inference'' framework, treating the LLM inference process as a compute-driven intelligent production activity. We analyze its marginal cost, economies of scale, and quality of output under various performance configurations. Based on empirical data from WiNEval-3.0, we construct the first ``LLM Inference Production Frontier,'' revealing three principles: diminishing marginal cost, diminishing returns to scale, and an optimal cost-effectiveness zone. This paper not only provides an economic basis for model deployment decisions but also lays an empirical foundation for the future market-based pricing and optimization of AI inference resources.
- Abstract(参考訳): LLM(Large Language Models)の推論コストは,その商業的可能性や普及度を決定する上で重要な要因となっている。
本稿では,LLM推論プロセスを計算駆動型インテリジェント生産活動として扱う,定量的な「推論の経済学」フレームワークを提案する。
我々は,その限界コスト,スケールの経済,および出力の質を,様々な性能構成で分析する。
WiNEval-3.0の実証データに基づいて,最初の‘LLM推論生産フロンティア’を構築し,限界コストの低減,スケールへのリターンの低減,最適コスト効率ゾーンの3つの原則を明らかにした。
本稿では、モデルデプロイメント決定のための経済基盤を提供するだけでなく、将来の市場ベースの価格設定とAI推論リソースの最適化のための実証的な基盤を提供する。
関連論文リスト
- Budget-Aware Anytime Reasoning with LLM-Synthesized Preference Data [57.996437077411315]
計算予算に制限のある大規模言語モデル(LLM)の推論挙動について検討する。
我々は、任意の推論フレームワークとAnytime Indexを導入し、推論トークンが増加するにつれて、ソリューションの品質がいかに効果的に向上するかを定量化します。
NaturalPlan(Trip)、AIME、GPQAデータセットの実験では、Grok-3、GPT-oss、GPT-4.1/4o、LLaMAモデル間で一貫した利得を示している。
論文 参考訳(メタデータ) (2026-01-16T07:09:30Z) - A Sustainable AI Economy Needs Data Deals That Work for Generators [56.949279542190084]
機械学習のバリューチェーンは、経済的なデータ処理の不平等のため、構造的に持続不可能である、と我々は主張する。
73の公開データ取引を分析し、アグリゲータに価値の大部分が蓄積されていることを示す。
参加者全員に利益をもたらす最小市場を実現するために、等価なData-Value Exchange Frameworkを提案する。
論文 参考訳(メタデータ) (2026-01-15T01:05:48Z) - The Economics of Information Pollution in the Age of AI: A General Equilibrium Approach to Welfare, Measurement, and Policy [4.887749221165767]
LLM(Large Language Models)の出現は、情報生産の経済性に対する根本的なショックである。
高品質な合成コンテンツを生成するための限界コストを非対称に崩壊させると同時に、高品質な生産をコスト的に残すことで、AIは情報汚染を体系的に動機付ける。
本稿では,この課題を解析するための一般均衡フレームワークを開発する。
論文 参考訳(メタデータ) (2025-09-17T06:31:17Z) - Computational Economics in Large Language Models: Exploring Model Behavior and Incentive Design under Resource Constraints [1.00707850217229]
大規模言語モデル(LLM)は計算コストによって制限される。
我々は, LLMを資源制約されたエージェントの内部経済として扱う「計算経済学」の枠組みを導入する。
計算が不十分な場合、標準LLMは精度を保ちながら高価値トークンに注意を向ける。
論文 参考訳(メタデータ) (2025-08-14T07:55:45Z) - Economic Evaluation of LLMs [0.9208007322096532]
我々は、誤りの経済的コストが0.01ドルを超えると、推論モデルがより正確でコストのかかるトレードオフをもたらすことを示した。
誤りを犯すコストが0.1ドルという場合,大きなLLMがカスケードを上回っていることが判明した。
論文 参考訳(メタデータ) (2025-07-04T23:16:02Z) - Cost-of-Pass: An Economic Framework for Evaluating Language Models [25.152801302217693]
正しい解決策を生み出すための金銭的コストである「パスコスト」を導入します。
次に、「最前線のコスト」を、利用可能なモデルや「人間専門家」にまたがる最小のパスコストとして定義する。
私たちは、基本的な量的、知識集約的、複雑な量的タスクにおいてフロンティアを推し進めるために、軽量、大規模、推論モデルにおける革新が不可欠であることが分かりました。
論文 参考訳(メタデータ) (2025-04-17T21:58:29Z) - Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models [51.85792055455284]
大規模言語モデル(LLM)の最近の進歩は、複雑な推論タスクを実行する能力を大幅に強化している。
システム1推論は計算効率が良いが、最適以下の性能をもたらす。
システム2推論(System 2 reasoning)は、思考の遅さや非効率性、不必要な推論の振る舞いにより、かなりの計算コストを発生させることが多い。
論文 参考訳(メタデータ) (2025-03-31T17:58:07Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - VickreyFeedback: Cost-efficient Data Construction for Reinforcement Learning from Human Feedback [2.07180164747172]
本稿では,RLHF(Reinforcement Learning from Human Feedback)の費用対効果について述べる。
RLHFは大規模言語モデル(LLM)の出力よりも人間の好みのデータセットを活用する
本稿では,RLHFのコスト効率を高める上で,オークション機構の導入が重要な役割を担っていることを示す。
論文 参考訳(メタデータ) (2024-09-27T03:15:07Z) - Benchmarking PtO and PnO Methods in the Predictive Combinatorial Optimization Regime [59.27851754647913]
予測最適化(英: Predictive optimization)は、エネルギーコストを意識したスケジューリングや広告予算配分など、多くの現実世界のアプリケーションの正確なモデリングである。
我々は,広告のための新しい産業データセットを含む8つの問題に対して,既存のPtO/PnOメソッド11をベンチマークするモジュラーフレームワークを開発した。
本研究は,8ベンチマーク中7ベンチマークにおいて,PnOアプローチがPtOよりも優れていることを示すが,PnOの設計選択に銀の弾丸は見つからない。
論文 参考訳(メタデータ) (2023-11-13T13:19:34Z) - Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models [48.87381259980254]
我々は、ChatGPTのような大規模言語モデル(LLM)が、直接の金融トレーニングなしでニュースの見出しから株式市場の反応を予測する能力について文書化している。
GPT-4は、認識後カットオフの見出しを使って、最初の市場の反応を捉え、取引不能な初期反応に対して、ポートフォリオの1日当たりのヒット率を約90%達成している。
論文 参考訳(メタデータ) (2023-04-15T19:22:37Z) - Cost-Sensitive Portfolio Selection via Deep Reinforcement Learning [100.73223416589596]
深層強化学習を用いたコスト依存型ポートフォリオ選択手法を提案する。
具体的には、価格系列パターンと資産相関の両方を抽出するために、新しい2ストリームポートフォリオポリシーネットワークを考案した。
蓄積したリターンを最大化し、強化学習によるコストの両立を抑えるため、新たなコスト感受性報酬関数が開発された。
論文 参考訳(メタデータ) (2020-03-06T06:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。