Fugu-MT 論文翻訳(概要): More Test-Time Compute Can Hurt: Overestimation Bias in LLM Beam Search

論文の概要: More Test-Time Compute Can Hurt: Overestimation Bias in LLM Beam Search

arxiv url: http://arxiv.org/abs/2603.15377v2
Date: Tue, 17 Mar 2026 15:04:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-18 15:30:47.466802
Title: More Test-Time Compute Can Hurt: Overestimation Bias in LLM Beam Search
Title（参考訳）: LLMビームサーチにおける過大評価バイアス
Authors: Gal Dalal, Assaf Hallak, Gal Chechik, Yftah Ziser,
Abstract要約: 本稿では、雑音の多いスコアラー出力に対するビーム選択に基づいて、エクストリーム値理論に基づく分析を行う。我々は,探索性能を劣化させる最大ビーム幅$hatk$を導出する。本分析では,ビーム幅選択を規定する鍵量として,スコアの信号対雑音比を同定する。
参考スコア（独自算出の注目度）: 40.90281862767655
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Wider beam search should improve LLM reasoning, but when should you stop widening? Prior work on beam width selection has focused on inference efficiency \citep{qin2025dsbd, freitag2017beam}, without analyzing whether wider search can \emph{hurt} output quality. We present an analysis, grounded in Extreme Value Theory, that answers this question. Beam selection over noisy scorer outputs introduces a systematic overestimation bias that grows with the candidate pool size, and we derive a maximum useful beam width $\hat{k}$ beyond which search degrades performance. This critical width depends on the signal-to-noise ratio of the scorer: $\hat{k}$ grows exponentially with $(Δ/σ)^2$, where $Δ> 0$ is the quality advantage of correct paths over incorrect ones and $σ$ is the scorer noise. We validate this theory by comparing perplexity-guided and PRM-guided beam search across three 7B-parameter models and ten domains on MR-BEN (5,975 questions). Perplexity scoring, with its high noise, yields $\hat{k} = 1$: search provides no benefit at any width tested. PRM scoring, with lower noise, yields $\hat{k} \geq 4$, with gains of up to 8.9 percentage points. The same model, the same algorithm, but different scorers place $\hat{k}$ at opposite ends of the beam width range. Our analysis identifies the scorer's signal-to-noise ratio as the key quantity governing beam width selection, and we propose diagnostic indicators for choosing the beam width in practice.
Abstract（参考訳）: ワイドビームサーチはLCM推論を改善するが、いつ広まるのをやめるべきなのか? ビーム幅選択に関する以前の研究は、より広い探索で出力品質が「emph{hurt}」になるかどうかを解析することなく、推論効率「citep{qin2025dsbd, freitag2017beam}」に焦点を当てていた。この疑問に答える分析をエクストリームバリュー理論に基づいて提示する。雑音の多いスコアラー出力に対するビーム選択は、候補プールサイズとともに増大する体系的過大評価バイアスを導入し、探索性能を低下させる最大有用なビーム幅$\hat{k}$を導出する。この臨界幅はスコアの信号対雑音比に依存する:$\hat{k}$は指数関数的に$(Δ/σ)^2$で成長する。 MR-BEN (5,975質問) 上で, 3つの7Bパラメータモデルと10領域にわたるパープレキシティ誘導ビームサーチとPRM誘導ビームサーチを比較して, この理論を検証した。パープレキシティスコアはその高いノイズで$\hat{k} = 1$: テストされた任意の幅において、検索は利益を提供しない。 PRMスコアは低騒音で$\hat{k} \geq 4$となり、最大8.9ポイントの利得が得られる。同じモデル、同じアルゴリズムだが、異なるスコアラーはビーム幅範囲の反対側に$\hat{k}$を置く。本分析では,ビーム幅選択を規定する鍵量としてスコアの信号-雑音比を同定し,実際にビーム幅を選択するための診断指標を提案する。

関連論文リスト

Best-of-Majority: Minimax-Optimal Strategy for Pass@$k$ Inference Scaling [54.50689440956967]
LLM推論は、しばしばプロンプトの一連の候補を生成し、多数決やBest-of-N (BoN)のような戦略を介して1つを選択する。我々は,最上位の$k$報酬を選択する前に,上位の$N$サンプルにおいて,高い周波数の応答を候補に限定するピボットステップを備えたBest-of-Majority (BoM)を提案する。多数決とBoNとは異なり、BoMは重要な利点がある:多数決とBoNとは異なり、そのパフォーマンスはN$を上昇しても低下しない。
論文参考訳（メタデータ） (2025-10-03T17:35:45Z)
Sparse Linear Bandits with Blocking Constraints [22.01704171400845]
データ・ポーア・システマにおける高次元スパース線形包帯問題について検討する。線形モデルに対するラッソ推定器の新たなオフライン統計的保証を示す。本稿では,最小限のコストで最適空間パラメータ$k$の知識を必要としない相関に基づくメタアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-26T01:42:03Z)
Optimal score estimation via empirical Bayes smoothing [13.685846094715364]
未知確率分布$rho*$のスコア関数を$n$独立分布および$d$次元における同一分布観測から推定する問題について検討する。ガウスカーネルに基づく正規化スコア推定器は、一致するミニマックス下界によって最適に示され、この値が得られることを示す。
論文参考訳（メタデータ） (2024-02-12T16:17:40Z)
(Accelerated) Noise-adaptive Stochastic Heavy-Ball Momentum [7.095058159492494]
ヘビーボール運動量(SHB)は機械学習モデルのトレーニングに一般的に用いられ、勾配よりも経験的な結果を提供することが多い。 SHBは, 条件値 $kappa2$ の閾値 $b*$ よりも小さい場合に, 高速化されたミニバッチサイズが得られることを示す。
論文参考訳（メタデータ） (2024-01-12T18:17:28Z)
Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文参考訳（メタデータ） (2023-05-01T02:37:59Z)
UB3: Best Beam Identification in Millimeter Wave Systems via Pure Exploration Unimodal Bandits [7.253481390411171]
本研究では,受信したビームの信号強度の一様構造を利用して,最適なビームを有限時間で識別するアルゴリズムを開発した。我々のアルゴリズムは、Unimodal Bandit for Best Beam (UB3) と名付けられ、数ラウンドで高い確率で最適なビームを識別する。
論文参考訳（メタデータ） (2022-12-26T09:24:22Z)
Beam Search: Faster and Monotonic [15.20931404997906]
我々はビーム探索のモノトニック化の方法を示し、ビーム幅が増加するにつれて非増加解コストが保証される新しい変種を提供する。また,非一様コストの領域において,ビーム探索がより高速に解を見つけることができることを示す。
論文参考訳（メタデータ） (2022-04-06T16:40:13Z)
Towards Minimax Optimal Best Arm Identification in Linear Bandits [95.22854522340938]
固定予算設定における線形包帯における最適な腕識別の問題について検討する。 G-最適設計の特性を活用し、アーム割り当て規則に組み込むことにより、パラメータフリーなアルゴリズムを設計する。 OD-LinBAIの故障確率に関する理論的解析を行った。
論文参考訳（メタデータ） (2021-05-27T09:19:10Z)
Sharp Statistical Guarantees for Adversarially Robust Gaussian Classification [54.22421582955454]
逆向きに頑健な分類の過剰リスクに対する最適ミニマックス保証の最初の結果を提供する。結果はAdvSNR(Adversarial Signal-to-Noise Ratio)の項で述べられており、これは標準的な線形分類と逆数設定との類似の考え方を一般化している。
論文参考訳（メタデータ） (2020-06-29T21:06:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。