Fugu-MT 論文翻訳(概要): The Shadow Price of Reasoning: Economic Perspective on Optimal Budget Allocation for LLMs

論文の概要: The Shadow Price of Reasoning: Economic Perspective on Optimal Budget Allocation for LLMs

arxiv url: http://arxiv.org/abs/2606.03092v2
Date: Mon, 08 Jun 2026 17:22:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:04.866892
Title: The Shadow Price of Reasoning: Economic Perspective on Optimal Budget Allocation for LLMs
Title（参考訳）: 推論のシャドウ価格:LCMの最適予算配分に関する経済的な展望
Authors: Xu Wan, Speed Zhu, Jianwei Cai, Guang Chen, XiMing Huang, Wiggin Zhou, Mingyang Sun,
Abstract要約: 推論時間のスケーリングは、大規模言語モデルのパフォーマンスを向上させる重要な方法として現れています。本研究では,経済原理に支配されるグローバル制約付き最適化問題として,推論予算配分を定式化する。
参考スコア（独自算出の注目度）: 12.942771885641719
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Inference-time scaling has emerged as a critical avenue for enhancing Large Language Models' performance, yet real-world deployment is constrained by strict computational budgets. In this work, we formulate inference budget allocation as a global constrained optimization problem governed by economic principles. By modeling per-query reasoning utility with a shifted-surge function, we derive an optimal allocation policy based on a global shadow price that equilibrates marginal utility under resource scarcity. Based on this theory, we propose Constrained Latent-utility Equilibrium Allocation for Reasoning (CLEAR). It performs rational abandonment and reallocates resources from insolvent queries to solvable queries near their emergence thresholds. Extensive experiments on several reasoning tasks with different traffic streams demonstrate that CLEAR significantly improves the Pareto frontier of total token cost versus mean accuracy. In resource-scarce regimes, CLEAR achieves up to a 3x improvement in global accuracy compared to uniform allocation.
Abstract（参考訳）: 推論時間のスケーリングは、大規模言語モデルのパフォーマンスを向上させる重要な手段として現れてきたが、現実のデプロイメントは厳格な計算予算によって制限されている。本研究では,経済原理によって支配されるグローバル制約付き最適化問題として,推論予算配分を定式化する。シフトサージ関数を用いたクエリごとの推論ユーティリティをモデル化することにより、資源不足下での限界効用を均衡させるグローバルシャドウ価格に基づく最適なアロケーションポリシを導出する。この理論に基づいて,制約付き遅延効用平衡割当(CLEAR)を提案する。合理的な放棄を実行し、リソースを解決しきい値付近で解決不可能なクエリから解決可能なクエリに再割り当てする。トラフィックストリームの異なる複数の推論タスクに対する大規模な実験により、CLEARはトークン全体のコスト対平均精度のParetoフロンティアを著しく改善することが示された。資源不足のレシエーションでは、CLEARは均一なアロケーションに比べて、グローバルな精度が最大で3倍向上する。

関連論文リスト

Ratio-Variance Regularized Policy Optimization [64.95520246570446]
ポリシ比の分散を明示的に制約することは、信頼領域の制約に対する原則的な局所近似をもたらすことを示す。本稿では,この制約を実装したR2bf VPO$(Ratio-Variance Regularized Policy Optimization)を紹介する。
論文参考訳（メタデータ） (2026-05-26T09:53:42Z)
Reasoning Is Not Free: Robust Adaptive Cost-Efficient Routing for LLM-as-a-Judge [4.511996087821266]
Reasoning-capable large language model (LLM) は、最近自動判断器として採用されている。本研究では,明示的推論により,構造化された検証を必要とするタスクの判断精度が大幅に向上することを示す。本稿では、推論と非推論の判断を選択可能なロバスト適応コスト効率ルーティング(RACER)を提案する。
論文参考訳（メタデータ） (2026-05-11T16:30:20Z)
Budget-Aware Anytime Reasoning with LLM-Synthesized Preference Data [57.996437077411315]
計算予算に制限のある大規模言語モデル(LLM)の推論挙動について検討する。我々は、任意の推論フレームワークとAnytime Indexを導入し、推論トークンが増加するにつれて、ソリューションの品質がいかに効果的に向上するかを定量化します。 NaturalPlan(Trip)、AIME、GPQAデータセットの実験では、Grok-3、GPT-oss、GPT-4.1/4o、LLaMAモデル間で一貫した利得を示している。
論文参考訳（メタデータ） (2026-01-16T07:09:30Z)
BudgetThinker: Empowering Budget-aware LLM Reasoning with Control Tokens [33.607723102172194]
BudgetThinkerは、予算を考慮した推論で大規模言語モデルを強化するために設計されたフレームワークである。我々は、BudgetThinkerが、様々な推論予算におけるパフォーマンス維持において、強力なベースラインをはるかに上回っていることを示す。
論文参考訳（メタデータ） (2025-08-24T03:17:50Z)
Optimizing Anytime Reasoning via Budget Relative Policy Optimization [70.32755424260336]
我々は,任意の推論性能を最適化する新しいフレームワークであるAnytimeReasonerを提案する。従来の分布からサンプルトークンの予算に適合するように、完全な思考プロセスを切り離します。次に、累積報酬を最大化するために、分割された方法で思考と要約ポリシーを最適化する。
論文参考訳（メタデータ） (2025-05-19T17:58:44Z)
Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文参考訳（メタデータ） (2025-05-08T15:01:06Z)
Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文参考訳（メタデータ） (2025-04-10T07:50:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。