論文の概要: Adaptive Test-Time Compute Allocation via Learned Heuristics over Categorical Structure
- arxiv url: http://arxiv.org/abs/2602.03975v1
- Date: Tue, 03 Feb 2026 19:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.256187
- Title: Adaptive Test-Time Compute Allocation via Learned Heuristics over Categorical Structure
- Title(参考訳): カテゴリー構造上の学習的ヒューリスティックスによる適応的テスト時間計算割当
- Authors: Shuhui Qu,
- Abstract要約: テスト時間計算は、大規模言語モデル(LLM)推論の進歩の原動力となっている。
我々は,検証作業が中間状態にまたがってどのように配置されるべきか,検証コストに制限のある環境下での推論について検討する。
本研究では, (i) 構造化された移動インタフェース上での確定可能性ゲーティング, (ii) 学習された状態距離と残差スコアのハイブリッドを用いた事前検証ランキング, (iii) 局所的不確実性に基づく検証呼び出しの適応的アロケーションを組み合わせた状態レベルの選択的検証フレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.8055130471307603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time computation has become a primary driver of progress in large language model (LLM) reasoning, but it is increasingly bottlenecked by expensive verification. In many reasoning systems, a large fraction of verifier calls are spent on redundant or unpromising intermediate hypotheses. We study reasoning under a \emph{verification-cost-limited} setting and ask how verification effort should be allocated across intermediate states. We propose a state-level selective verification framework that combines (i) deterministic feasibility gating over a structured move interface, (ii) pre-verification ranking using a hybrid of learned state-distance and residual scoring, and (iii) adaptive allocation of verifier calls based on local uncertainty. Unlike solution-level best-of-$N$ or uniform intermediate verification, our method distributes verification where it is most informative. On the \textsc{MATH} benchmark, our approach achieves higher accuracy than best-of-$N$, majority voting, and beam search while using 44\% fewer verifier calls.
- Abstract(参考訳): テスト時間計算は、大規模言語モデル(LLM)推論の進歩の原動力となっているが、ますます高価な検証によってボトルネックになっている。
多くの推論システムでは、検証者呼び出しのかなりの部分が、冗長あるいは未証明の中間仮説に費やされている。
我々は,emph{verification-cost-limited} 設定で推論を研究し,中間状態間で検証作業をどのように割り当てるかを問う。
統合された状態レベルの選択的検証フレームワークを提案する。
一 構成された移動インタフェース上の決定論的実現可能性
二 学習状態距離と残差スコアのハイブリッドを用いた事前検証格付け、及び
三 局所不確実性に基づく検証者呼び出しの適応割当
解レベルのベスト・オブ・N$や一様中間検証とは違って,本手法は最も情報に富んだ検証を分散する。
提案手法は, 検証器コールを44倍に減らしながら, 最良得票率, 多数決票率, ビームサーチよりも高い精度を実現する。
関連論文リスト
- Preventing the Collapse of Peer Review Requires Verification-First AI [49.995126139461085]
我々は、真理結合、すなわち、過度に科学的真理をトラックする場所のスコアの厳密さを提案する。
プロキシ・ソブリン評価に向けた相転移を駆動する2つの力の形式化を行う。
論文 参考訳(メタデータ) (2026-01-23T17:17:32Z) - MARS: Unleashing the Power of Speculative Decoding via Margin-Aware Verification [7.935725883885573]
Speculative Decoding (SD)は、自動回帰型大言語モデル(LLM)推論をデカップリングして高速化する。
対象モデルの局所的決定性に適応する訓練不要でドメインに依存しない検証戦略であるMargin-Aware Speculative Verificationを提案する。
本手法は,目標ロジットから直接測定した決定安定性の検証を行い,厳密な検証が最小限の利益をもたらす場合にのみ拒否を緩和する。
論文 参考訳(メタデータ) (2026-01-21T22:03:06Z) - Budget-aware Test-time Scaling via Discriminative Verification [29.169164125933538]
テスト時間のスケーリングは、複雑な推論タスクにおいて、大きな言語モデルのパフォーマンスを高めるための強力な戦略です。
この作業では、焦点をより予算対応のパラダイム、差別的検証にシフトします。
固定された計算予算の下では、このハイブリッドアプローチは最先端の生成検証をかなりの差で上回る。
論文 参考訳(メタデータ) (2025-10-16T17:30:02Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Reward Models Enable Scalable Code Verification by Trading Accuracy for Throughput [21.59519440154879]
結果報酬モデル(ORM)が,速度のトレーディング精度を通じて検証をスケールする上で重要な役割を担っていることを示す。
生成-帰属-ランクのアプローチを分析し、不正だが高いランクの解をフィルタリングすることで機能することを示す。
論文 参考訳(メタデータ) (2025-06-11T17:58:21Z) - Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning [81.50681925980135]
本稿では,ステップワイズ推論チェックポイント分析(SRCA)を提案する。
本研究は,(1)中間チェックポイント回答による経路推論をグループ化して品質を確保しつつ多様性を維持するAnswer-Clustered Search,(2)最終決定にすべての中間回答を活用するCheckpoint Candidate Augmentationの2つの主要な戦略を取り入れた。
提案手法は経路均質化を効果的に低減し,高品質な中間結果を活用することにより耐故障機構を創出する。
論文 参考訳(メタデータ) (2025-05-23T12:42:50Z) - Bisimulation Learning [55.859538562698496]
我々は、大きな、潜在的に無限の状態空間を持つ状態遷移系の有限バイシミュレートを計算する。
提案手法は,実際に行われている他の最先端ツールよりも高速な検証結果が得られる。
論文 参考訳(メタデータ) (2024-05-24T17:11:27Z) - Submodular Information Selection for Hypothesis Testing with Misclassification Penalties [3.3444620077119436]
仮説テスト/分類タスクにおいて,情報ソースの最適サブセットを選択する問題について検討する。
異なる誤分類誤りに対する一様でない処理を可能にする誤分類ペナルティフレームワークを提案する。
我々は,この指標が準モジュラであることを示すとともに,両情報集合選択問題に対するグリーディアルゴリズムのほぼ最適保証を確立する。
論文 参考訳(メタデータ) (2024-05-17T17:31:02Z) - Discriminative Nearest Neighbor Few-Shot Intent Detection by
Transferring Natural Language Inference [150.07326223077405]
データ不足を緩和するためには、ほとんどショットラーニングが注目を集めている。
深部自己注意を伴う識別的近傍分類を提示する。
自然言語推論モデル(NLI)を変換することで識別能力を高めることを提案する。
論文 参考訳(メタデータ) (2020-10-25T00:39:32Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。