論文の概要: The Price Reversal Phenomenon: When Cheaper Reasoning Models End Up Costing More
- arxiv url: http://arxiv.org/abs/2603.23971v1
- Date: Wed, 25 Mar 2026 06:07:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.154182
- Title: The Price Reversal Phenomenon: When Cheaper Reasoning Models End Up Costing More
- Title(参考訳): 価格逆転現象:チーパー推論モデルが終わればコストが上がる
- Authors: Lingjiao Chen, Chi Zhang, Yeye He, Ion Stoica, Matei Zaharia, James Zou,
- Abstract要約: リストAPIの価格設定は、実際のコストに対する信頼性の低いプロキシである。
思考トークンのコストの削減は、ランキングの反転を70%削減します。
この結果から,コスト意識モデル選択と透過的な要求毎のコスト監視の必要性が示唆された。
- 参考スコア(独自算出の注目度): 76.93600828673503
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Developers and consumers increasingly choose reasoning language models (RLMs) based on their listed API prices. However, how accurately do these prices reflect actual inference costs? We conduct the first systematic study of this question, evaluating 8 frontier RLMs across 9 diverse tasks covering competition math, science QA, code generation, and multi-domain reasoning. We uncover the pricing reversal phenomenon: in 21.8% of model-pair comparisons, the model with a lower listed price actually incurs a higher total cost, with reversal magnitude reaching up to 28x. For example, Gemini 3 Flash's listed price is 78% cheaper than GPT-5.2's, yet its actual cost across all tasks is 22% higher. We trace the root cause to vast heterogeneity in thinking token consumption: on the same query, one model may use 900% more thinking tokens than another. In fact, removing thinking token costs reduces ranking reversals by 70% and raises the rank correlation (Kendall's $τ$ ) between price and cost rankings from 0.563 to 0.873. We further show that per-query cost prediction is fundamentally difficult: repeated runs of the same query yield thinking token variation up to 9.7x, establishing an irreducible noise floor for any predictor. Our findings demonstrate that listed API pricing is an unreliable proxy for actual cost, calling for cost-aware model selection and transparent per-request cost monitoring.
- Abstract(参考訳): 開発者やコンシューマは、列挙されたAPI価格に基づいて、推論言語モデル(RLM)を選択するようになっている。
しかし、これらの価格が実際の推論コストをどの程度正確に反映しているか?
本研究は,競争数学,科学QA,コード生成,マルチドメイン推論を含む9つのタスクを対象とした8つのフロンティア RLM の評価を行った。
モデルペア比較の21.8%では、列挙された価格の低いモデルの方が、実際には総コストが高く、リバーサルサイズは最大28倍に達する。
例えば、Gemini 3 Flash は GPT-5.2 よりも 78% 安いが、実際の作業にかかるコストは 22% 高い。
同じクエリでは、あるモデルでは、他のモデルよりも900%多くの思考トークンを使用することができます。
実際、思考トークンコストの除去は、ランクの反転を70%削減し、価格とコストのランクの相関(ケンドールのτ$)を0.563から0.873に引き上げる。
さらに、クエリごとのコスト予測が基本的に困難であることを示し、同じクエリ収率のトークンの変動を最大9.7倍に繰り返し実行し、任意の予測器に対する既約ノイズフロアを確立する。
以上の結果から,列挙されたAPI価格が実際のコストに対する信頼性の低いプロキシであり,コスト意識のモデル選択と要求毎のコスト監視が求められていることがわかった。
関連論文リスト
- Rerank Before You Reason: Analyzing Reranking Tradeoffs through Effective Token Cost in Deep Search Agents [50.212640395029744]
深層探索パイプラインにおける推論予算の配分について検討する。
BrowseComp-Plusベンチマークを用いて、モデルスケール、推論の労力、深度の再検討、トークン総コストのトレードオフを分析する。
論文 参考訳(メタデータ) (2026-01-20T18:38:35Z) - ZIP-RC: Optimizing Test-Time Compute via Zero-Overhead Joint Reward-Cost Prediction [57.799425838564]
ZIP-RCは、モデルに報酬とコストのゼロオーバーヘッド推論時間予測を持たせる適応推論手法である。
ZIP-RCは、同じまたはより低い平均コストで過半数投票よりも最大12%精度が向上する。
論文 参考訳(メタデータ) (2025-12-01T09:44:31Z) - DISCO: Diversifying Sample Condensation for Efficient Model Evaluation [59.01400190971061]
コスト評価は傾向を低下させ、イノベーションのサイクルを遅くし、環境への影響を悪化させる。
モデル応答の多様性を最大化するサンプルを選択することが重要となる。
我々のメソッドである$textbfDiversifying Sample Condensation (DISCO)$は、最も大きなモデル不一致を持つトップkサンプルを選択します。
論文 参考訳(メタデータ) (2025-10-09T08:53:59Z) - VeriThinker: Learning to Verify Makes Reasoning Model Efficient [52.74493506816969]
大型推論モデルは、Chain-of-Thought (CoT)推論を用いて複雑なタスクで優れている。
過度に考える傾向は、必然的に長い推論連鎖に繋がる。
我々は,CoT圧縮の新しい手法であるVeriThinkerを紹介する。
論文 参考訳(メタデータ) (2025-05-23T14:17:56Z) - Is $F_1$ Score Suboptimal for Cybersecurity Models? Introducing $C_{score}$, a Cost-Aware Alternative for Model Assessment [1.747623282473278]
偽陽性と偽陰性は等しくなく、応用に依存している。
サイバーセキュリティアプリケーションでは、攻撃を検知しないコストは、攻撃として良心的な活動をマークすることとは大きく異なる。
我々は、精度とリコールに基づいて、新しいコスト対応メトリックである$C_score$を提案する。
論文 参考訳(メタデータ) (2024-07-19T21:01:19Z) - Mind the Gap: A Causal Perspective on Bias Amplification in Prediction & Decision-Making [58.06306331390586]
本稿では,閾値演算による予測値がS$変化の程度を測るマージン補数の概念を導入する。
適切な因果仮定の下では、予測スコア$S$に対する$X$の影響は、真の結果$Y$に対する$X$の影響に等しいことを示す。
論文 参考訳(メタデータ) (2024-05-24T11:22:19Z) - Dynamic Pricing and Learning with Long-term Reference Effects [16.07344044662994]
本研究では,販売者が提示した過去の価格の基準価格が平均値となる,シンプルで斬新な参照価格メカニズムについて検討する。
このメカニズムの下では,モデルパラメータに関係なく,マークダウンポリシがほぼ最適であることを示す。
次に、需要モデルパラメータが不明な、より困難な動的価格と学習の問題について検討する。
論文 参考訳(メタデータ) (2024-02-19T21:36:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。