論文の概要: Test-Time Compute Games
- arxiv url: http://arxiv.org/abs/2601.21839v1
- Date: Thu, 29 Jan 2026 15:18:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.928902
- Title: Test-Time Compute Games
- Title(参考訳): テストタイムコンピューティングゲーム
- Authors: Ander Artola Velasco, Dimitrios Rontogiannis, Stratis Tsirtsis, Manuel Gomez-Rodriguez,
- Abstract要約: テストタイム計算は、大規模言語モデルの推論能力を高めるための有望な戦略として登場した。
LLM-as-a-serviceの市場は、テストタイムの計算量を増やすための金銭的なインセンティブがあるため、社会的に非効率であることを示す。
提案する価格と(予想される)品質を,ユーザに提供する機会に入札する,リバースな第2価格オークション機構を導入する。
- 参考スコア(独自算出の注目度): 11.108199754300772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time compute has emerged as a promising strategy to enhance the reasoning abilities of large language models (LLMs). However, this strategy has in turn increased how much users pay cloud-based providers offering LLM-as-a-service, since providers charge users for the amount of test-time compute they use to generate an output. In our work, we show that the market of LLM-as-a-service is socially inefficient: providers have a financial incentive to increase the amount of test-time compute, even if this increase contributes little to the quality of the outputs. To address this inefficiency, we introduce a reverse second-price auction mechanism where providers bid their offered price and (expected) quality for the opportunity to serve a user, and users pay proportionally to the marginal value generated by the winning provider relative to the second-highest bidder. To illustrate and complement our theoretical results, we conduct experiments with multiple instruct models from the $\texttt{Llama}$ and $\texttt{Qwen}$ families, as well as reasoning models distilled from $\texttt{DeepSeek-R1}$, on math and science benchmark datasets.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力を高めるための有望な戦略としてテスト時計算が登場した。
しかし、この戦略は、LLM-as-a-serviceを提供するクラウドベースのプロバイダに対して、アウトプットを生成するために使用するテスト時間計算の量に対して、プロバイダがユーザに対して課金するので、ユーザがどれだけの料金を支払うかを増加させている。
LLM-as-a-serviceの市場は社会的に非効率であることを示し、たとえこの増加がアウトプットの品質にはほとんど寄与しないとしても、プロバイダーはテストタイムの計算量を増やすための経済的インセンティブを持っている。
この非効率性に対処するため、提案した価格と(予想される)品質を利用者に提供するためのリバース2価格オークション機構を導入し、利用者は第2位の入札者に対して勝者が生み出す限界値に比例して支払う。
理論的結果の説明と補足を行うため,$\texttt{Llama}$と$\texttt{Qwen}$ファミリーの複数のインストラクションモデルと,$\textt{DeepSeek-R1}$から抽出した推論モデルを用いて,数学および科学ベンチマークのデータセット上で実験を行った。
関連論文リスト
- Reliable LLM-Based Edge-Cloud-Expert Cascades for Telecom Knowledge Systems [54.916243942641444]
大規模言語モデル(LLM)は、通信などの分野において、自動化の鍵となる存在として浮上している。
本研究では,問合せパイプラインによる意思決定を支援する,エッジクラウドに精通したLLMベースの知識システムについて検討する。
論文 参考訳(メタデータ) (2025-12-23T03:10:09Z) - Learning Personalized Ad Impact via Contextual Reinforcement Learning under Delayed Rewards [36.029144318322686]
広告入札をコンテキストマルコフ決定プロセス(CMDP)としてモデル化し,ポアソンの報酬を遅延させる。
効率的な推定法として,データ分割戦略と組み合わせた2段階の最大推定器を提案する。
我々は、効率的な個人化入札戦略を導出するための強化学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2025-10-22T22:08:36Z) - Learning from Synthetic Labs: Language Models as Auction Participants [12.007281866970485]
本稿では, オークションの研究開発を支援するために, 新たな合成データ生成手法を提案する。
シミュレーションAIエージェント(大規模言語モデル)は,様々な古典的フォーマットのオークションにおいて,実験文献と一致していることがわかった。
論文 参考訳(メタデータ) (2025-07-12T00:00:30Z) - Is Your LLM Overcharging You? Tokenization, Transparency, and Incentives [13.91198481393699]
我々は,疑念を抱くことなく,利用者を著しく過給できる効率的なアルゴリズムを開発した。
戦略化のための金銭的インセンティブをなくすためには、価格設定メカニズムは、文字数に応じてトークンを線形に価格設定する必要がある。
論文 参考訳(メタデータ) (2025-05-27T18:02:12Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [75.1351701045874]
Best-of-N selectionは、Large Language Models(LLMs)の推論性能を改善するための重要なテクニックである。
本稿では, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規で効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Fairshare Data Pricing via Data Valuation for Large Language Models [22.96743502195587]
本稿では,大規模言語モデル(LLM)データ市場に関する理論的枠組みを紹介する。
我々は、悪用的な価格が高品質の売り手を市場から追い出す方法を示している。
次に、データバリュエーションに基づく価格設定メカニズムであるfairshareを紹介します。
論文 参考訳(メタデータ) (2025-01-31T22:27:34Z) - Self-Refinement Strategies for LLM-based Product Attribute Value Extraction [51.45146101802871]
本稿では,製品属性値抽出タスクに2つの自己補充手法を適用した。
実験の結果, 2つの自己補充技術は, 処理コストを大幅に増大させながら, 抽出性能を著しく向上させることができないことがわかった。
開発データを持つシナリオでは、ファインチューニングが最もパフォーマンスが高いのに対して、ファインチューニングの上昇コストは製品記述の量が増加するにつれてバランスがとれる。
論文 参考訳(メタデータ) (2025-01-02T12:55:27Z) - Enhancing User' s Income Estimation with Super-App Alternative Data [59.60094442546867]
これは、これらの代替データソースのパフォーマンスと、業界に受け入れられた局の収入推定器のパフォーマンスを比較します。
本論文は、金融機関がリスクプロファイルの構築に代替データを導入しようとする動機を示すものである。
論文 参考訳(メタデータ) (2021-04-12T21:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。