論文の概要: Uncertainty-Aware Budget Allocation for Adaptive Test-Time Reasoning
- arxiv url: http://arxiv.org/abs/2605.26849v1
- Date: Tue, 26 May 2026 11:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.899033
- Title: Uncertainty-Aware Budget Allocation for Adaptive Test-Time Reasoning
- Title(参考訳): 適応型テスト時間推論のための不確実性を考慮した予算配分
- Authors: Manh Nguyen, Sunil Gupta, Hung Le,
- Abstract要約: 不確実性を考慮した予算割当(Uncertainty-Aware Budget Allocation、UAB)は、追加の推論コストなしで見積もられた要求当たりの不確実性に基づいて、固定サンプリング予算を再配置する凹型整数最適化フレームワークである。
1.5Bから27Bパラメータにまたがる6つのオープンウェイトモデルとブラックボックスモデルと、数学、論理学、選好タスクをカバーする5つの推論ベンチマークを評価した。
- 参考スコア(独自算出の注目度): 13.41454380481593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sampling multiple responses improves language model reasoning, but uniform compute allocation is inefficient: easy questions are over-sampled while hard questions remain under-explored. We propose Uncertainty-Aware Budget Allocation (UAB), a concave integer optimization framework that reallocates a fixed sampling budget based on per-question uncertainty estimated at no additional inference cost. In Phase 1, every question receives one generation; its average negative log-likelihood (ANLL), extracted directly from output log-probabilities, serves as a difficulty signal while the generation contributes to the final vote. In Phase 2, the remaining budget is allocated by a marginal-greedy algorithm that solves a concave coverage-maximization surrogate exactly: uncertain questions receive more sampling budget while confident questions receive fewer additional samples. Evaluated on six open-weight and black-box models spanning 1.5B to 27B parameters and five reasoning benchmarks covering math, logic, and preference tasks, UAB outperforms baselines by up to +3% in average accuracy and up to +5% on individual benchmarks, with the largest gains in low-resource settings, requiring no auxiliary model or additional LLM call. Code is publicly available at https://github.com/manhitv/UAB.
- Abstract(参考訳): 複数のレスポンスをサンプリングすることで言語モデルの推論が改善されるが、均一な計算割り当ては非効率である。
本研究では,不確実性を考慮した不確実性評価手法である不確実性評価予算割当(Uncertainty-Aware Budget Allocation, UAB)を提案する。
フェーズ1では、各質問は1つの世代を受け取り、出力ログ確率から直接抽出された平均負の対数類似度(ANLL)は、生成が最終投票に寄与する間に困難信号として機能する。
フェーズ2では、残りの予算は、凹凸カバレッジの最大化を正当に解決する辺縁グレーディアルゴリズムによって割り当てられる: 不確実な質問はサンプリング予算を多く受け、確実な質問はより多くのサンプルを受信する。
1.5Bから27Bのパラメータにまたがる6つのオープンウェイトおよびブラックボックスモデルと、数学、論理、および選好タスクをカバーする5つの推論ベンチマークに基づいて評価され、UABは平均精度で最大3%、個々のベンチマークで最大5%、低リソース設定で最大の利益を上げ、補助モデルや追加のLCM呼び出しを必要としない。
コードはhttps://github.com/manhitv/UAB.comで公開されている。
関連論文リスト
- Instance-Optimal Estimation with Multiple LLM Judges on a Budget [84.31744861038106]
我々は、この問題を*予算付きヘテロスケダティックなマルチジャッジ推定*として定式化する。
K$のプロンプト-レスポンスペア、J$の既知のコストと未知のクエリ-ジャッジ分散が与えられた場合、目標は、$ell_p$-errorを最小化しながら、有界スコアベクトルを推定することである。
EST-IVWEは,予算の低次項までのオラクルIVWEレートと一致していることを示す。
論文 参考訳(メタデータ) (2026-05-22T08:26:08Z) - Adaptive Test-Time Compute Allocation for Reasoning LLMs via Constrained Policy Optimization [18.737087162461563]
テストタイムの計算スケーリングは、大規模言語モデルのパフォーマンスを向上させるための強力なレバーとなっている。
しかし、これらのテクニックを有限の推論予算の下で展開するには、現在のシステムがほとんど無視する決定が必要である。
我々はこれを制約付き最適化問題(平均計算予算の予測精度を最大化する)として定式化し、2段階のソルベ・テン・ラーンパイプラインで解いた。
論文 参考訳(メタデータ) (2026-04-16T10:39:22Z) - ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - Efficient Evaluation of LLM Performance with Statistical Guarantees [11.703733256169214]
大規模言語モデルのベンチマークのためのFAQ(Factized Active Querying)を提案する。
FAQは、ハイブリッド分散推論/アクティブラーニングサンプリングポリシーを用いて、質問を適応的に選択する。
FAQは、2つのベンチマークスイートの強いベースラインよりも、有効サンプルサイズが5倍に向上する。
論文 参考訳(メタデータ) (2026-01-28T04:59:20Z) - CarBoN: Calibrated Best-of-N Sampling Improves Test-time Reasoning [62.56541355300587]
本稿では,高逆推論経路に向けてモデルを適応的に修正する一般的なテスト時間校正フレームワークを提案する。
本フレームワークでは,まず解空間を探索し,次にロジットの校正を学習する二相法であるCarBoNを提案する。
MATH-500とAIME-2024の実験では、CarBoNは効率を向上し、同じ精度に達するために最大4倍のロールアウトが可能である。
論文 参考訳(メタデータ) (2025-10-17T14:04:37Z) - Additive Distributionally Robust Ranking and Selection [0.8283940114367679]
そこで本研究では,$k + m - 1$の事前仮説クリティカルシナリオのみをサンプリングすることを目的とした,単純な加算割当(AA)手順を提案する。
AAが一貫したものであり、驚くべきことに、最も強い意味で付加性を達成することを証明します。
結果は、DRR&Sの加法構造に対する新しい、そして反直観的な洞察を与える。
論文 参考訳(メタデータ) (2025-09-07T17:36:29Z) - Steering LLM Thinking with Budget Guidance [48.65894557568655]
予算指導は、微調整を必要とせず、目標予算に向けてLSMの推論プロセスを操る方法である。
提案手法では,ガンマ分布を残りの思考長にわたってモデル化する軽量な予測器を提案する。
この信号は、生成をソフトでトークンレベルの方法でガイドするために使用され、全体の推論トレースが指定された思考予算に従うことを保証する。
論文 参考訳(メタデータ) (2025-06-16T17:57:05Z) - Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。
我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-03T02:56:26Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。