論文の概要: Cost-of-Pass: An Economic Framework for Evaluating Language Models
- arxiv url: http://arxiv.org/abs/2504.13359v1
- Date: Thu, 17 Apr 2025 21:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 20:07:58.528479
- Title: Cost-of-Pass: An Economic Framework for Evaluating Language Models
- Title(参考訳): コスト・オブ・パス: 言語モデルを評価するための経済フレームワーク
- Authors: Mehmet Hamza Erol, Batu El, Mirac Suzgun, Mert Yuksekgonul, James Zou,
- Abstract要約: 正しい解決策を生み出すための金銭的コストである「パスコスト」を導入します。
次に、「最前線のコスト」を、利用可能なモデルや「人間専門家」にまたがる最小のパスコストとして定義する。
私たちは、基本的な量的、知識集約的、複雑な量的タスクにおいてフロンティアを推し進めるために、軽量、大規模、推論モデルにおける革新が不可欠であることが分かりました。
- 参考スコア(独自算出の注目度): 25.152801302217693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread adoption of AI systems in the economy hinges on their ability to generate economic value that outweighs their inference costs. Evaluating this tradeoff requires metrics that account for both performance and costs. We propose a framework grounded in production theory for evaluating language models by combining accuracy and inference cost. We introduce "cost-of-pass", the expected monetary cost of generating a correct solution. We then define the "frontier cost-of-pass" as the minimum cost-of-pass achievable across available models or the "human-expert, using the approximate cost of hiring an expert. Our analysis reveals distinct economic insights. First, lightweight models are most cost-effective for basic quantitative tasks, large models for knowledge-intensive ones, and reasoning models for complex quantitative problems, despite higher per-token costs. Second, tracking this frontier cost-of-pass over the past year reveals significant progress, particularly for complex quantitative tasks where the cost has roughly halved every few months. Third, to trace key innovations driving this progress, we examine counterfactual frontiers: estimates of cost-efficiency without specific model classes. We find that innovations in lightweight, large, and reasoning models have been essential for pushing the frontier in basic quantitative, knowledge-intensive, and complex quantitative tasks, respectively. Finally, we assess the cost-reductions afforded by common inference-time techniques like majority voting and self-refinement, finding that their marginal accuracy gains rarely justify their costs. Our findings underscore that complementary model-level innovations are the primary drivers of cost-efficiency, and our economic framework provides a principled tool for measuring this progress and guiding deployment.
- Abstract(参考訳): 経済におけるAIシステムの普及は、推論コストを上回る経済的価値を生み出す能力に頼っている。
このトレードオフを評価するには、パフォーマンスとコストの両方を考慮したメトリクスが必要です。
本稿では,精度と推論コストを組み合わせた言語モデル評価のための生産理論に基づくフレームワークを提案する。
正しい解決策を生み出すための金銭的コストである「パスコスト」を導入します。
そして、専門家を雇うためのおよそのコストを用いて、利用可能なモデルや「人間専門家」にまたがって達成可能な最小のパスコストとして、"最前線のコスト"を定義します。
我々の分析は経済的な見識をはっきり示している。
第一に、軽量モデルが最もコスト効率が高いのは、基本的な量的タスク、知識集約モデルのための大きなモデル、複雑な量的問題に対する推論モデルである。
第二に、過去1年間でこの最前線のコストを追跡することは、特に数ヶ月でほぼ半分になった複雑な量的タスクにおいて、大きな進歩を見せている。
第三に、この進歩を導く重要なイノベーションを追究するため、特定のモデルクラスを使わずにコスト効率を見積もる反ファクトリアル・フロンティアについて検討する。
基本的な量的、知識集約的な、複雑な量的タスクにおいて、フロンティアを推し進めるためには、軽量、大規模、推論モデルにおける革新が不可欠であることが分かっています。
最後に、多数決や自己抑制のような一般的な推論時間技術によって得られるコスト削減を評価し、その限界精度の上昇がコストを正当化することは滅多にない。
我々の経済の枠組みは、この進歩を計測し、展開を導くための原則的なツールを提供する。
関連論文リスト
- Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models [51.85792055455284]
大規模言語モデル(LLM)の最近の進歩は、複雑な推論タスクを実行する能力を大幅に強化している。
システム1推論は計算効率が良いが、最適以下の性能をもたらす。
システム2推論(System 2 reasoning)は、思考の遅さや非効率性、不必要な推論の振る舞いにより、かなりの計算コストを発生させることが多い。
論文 参考訳(メタデータ) (2025-03-31T17:58:07Z) - Reqo: A Robust and Explainable Query Optimization Cost Model [2.184775414778289]
GRU(Gated Recurrent Units)によって集約された双方向グラフニューラルネットワーク(Bi-GNN)に基づくツリーモデルアーキテクチャを提案する。
我々は,確率的MLを用いて,コスト見積の不確実性を効果的に定量化する,新しい学習とランクのコストモデルを実装した。
さらに,学習型コストモデルに特化して設計された最初の説明可能性手法を提案する。
論文 参考訳(メタデータ) (2025-01-29T04:48:51Z) - Can We Afford The Perfect Prompt? Balancing Cost and Accuracy with the Economical Prompting Index [5.714609806192087]
本稿では,正確度スコアとトークン消費を組み合わせた新しい指標であるEconomical Prompting Index(EPI)を紹介する。
本研究は, 思考の連鎖, 自己整合性, 思考の木の6つの先進的促進技術について検討した。
論文 参考訳(メタデータ) (2024-12-02T16:34:18Z) - An Economic Framework for 6-DoF Grasp Detection [28.25609101289935]
本研究では,訓練における資源コストの低減と効果的な把握性能の維持を目的とした,6-DoFグリップ検出のための経済的な枠組みを提案する。
EconomicGrasp は SOTA の把握法を平均 3AP で上回り,資源コストが極端に低い。
論文 参考訳(メタデータ) (2024-07-11T10:19:48Z) - Evolve Cost-aware Acquisition Functions Using Large Language Models [11.209139558885035]
本稿では,大規模言語モデル (LLM) と進化計算 (EC) を統合する新しいフレームワークであるEvolCAFを紹介する。
設計されたコストアウェアAFは、過去のデータ、サロゲートモデル、予算の詳細から利用可能な情報の利用を最大化する。
EIpu と EI-cool の手法は, 人的専門家が設計した手法と比較して, 様々なタスクにまたがる顕著な効率性と一般化を示す。
論文 参考訳(メタデータ) (2024-04-25T12:19:18Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Power Hungry Processing: Watts Driving the Cost of AI Deployment? [74.19749699665216]
生成された多目的AIシステムは、機械学習(ML)モデルをテクノロジに構築するための統一的なアプローチを約束する。
この「一般性」の野心は、これらのシステムが必要とするエネルギー量と放出する炭素量を考えると、環境に急激なコストがかかる。
これらのモデルを用いて,代表的なベンチマークデータセット上で1,000の推論を行うのに必要なエネルギーと炭素の量として,デプロイメントコストを測定した。
本稿は、多目的MLシステムの展開動向に関する議論から締めくくり、エネルギーと排出の面でコストの増大に対して、その実用性はより意図的に重み付けされるべきである、と警告する。
論文 参考訳(メタデータ) (2023-11-28T15:09:36Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - The Efficiency Misnomer [50.69516433266469]
我々は、共通のコスト指標、それらの利点とデメリット、そしてそれらが相互に矛盾する方法について論じる。
コストインジケータの不完全な報告が、どのようにして部分的な結論をもたらすかを示し、異なるモデルの実践的考察の曖昧さや不完全さを図示する。
論文 参考訳(メタデータ) (2021-10-25T12:48:07Z) - Costs to Consider in Adopting NLP for Your Business [3.608765813727773]
パフォーマンス向上とモデル間のコストのトレードオフを示し、AIピボットビジネスのさらなる洞察を与えます。
特にリソース不足言語について、低コストモデルに関するさらなる研究を求めています。
論文 参考訳(メタデータ) (2020-12-16T13:57:31Z) - Cost-Sensitive Portfolio Selection via Deep Reinforcement Learning [100.73223416589596]
深層強化学習を用いたコスト依存型ポートフォリオ選択手法を提案する。
具体的には、価格系列パターンと資産相関の両方を抽出するために、新しい2ストリームポートフォリオポリシーネットワークを考案した。
蓄積したリターンを最大化し、強化学習によるコストの両立を抑えるため、新たなコスト感受性報酬関数が開発された。
論文 参考訳(メタデータ) (2020-03-06T06:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。