論文の概要: Adaptive Uncertainty-Aware Tree Search for Robust Reasoning
- arxiv url: http://arxiv.org/abs/2602.06493v1
- Date: Fri, 06 Feb 2026 08:40:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.29886
- Title: Adaptive Uncertainty-Aware Tree Search for Robust Reasoning
- Title(参考訳): ロバスト推論のための適応的不確実性木探索
- Authors: Zeen Song, Zihao Ma, Wenwen Qiang, Changwen Zheng, Gang Hua,
- Abstract要約: 推論時間推論は、複雑な問題解決においてLarge Language Models (LLMs) の機能を向上させる。
プロセス・リワード・モデル (Process Reward Models, PRM) による外部探索が主流である。
我々は, PRMsが, 分布外サンプル(OOD)に対して高い不確実性を示し, 信頼できないスコアを示した経験的証拠を提供する。
そこで我々は,標準探索が線形後悔の蓄積を引き起こす一方で,不確実性認識戦略がサブ線形後悔を達成できることを示す理論的枠組みを確立する。
- 参考スコア(独自算出の注目度): 30.006968507593452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference-time reasoning scaling has significantly advanced the capabilities of Large Language Models (LLMs) in complex problem-solving. A prevalent approach involves external search guided by Process Reward Models (PRMs). However, a fundamental limitation of this framework is the epistemic uncertainty of PRMs when evaluating reasoning paths that deviate from their training distribution. In this work, we conduct a systematic analysis of this challenge. We first provide empirical evidence that PRMs exhibit high uncertainty and unreliable scoring on out-of-distribution (OOD) samples. We then establish a theoretical framework proving that while standard search incurs linear regret accumulation, an uncertainty-aware strategy can achieve sublinear regret. Motivated by these findings, we propose Uncertainty-Aware Tree Search (UATS), a unified method that estimates uncertainty via Monte Carlo Dropout and dynamically allocates compute budget using a reinforcement learning-based controller. Extensive experiments demonstrate that our approach effectively mitigates the impact of OOD errors.
- Abstract(参考訳): 推論時間推論スケーリングは、複雑な問題解決におけるLarge Language Models(LLM)の機能を大幅に進歩させた。
一般的なアプローチは、Process Reward Models (PRMs) によって導かれる外部探索である。
しかしながら、この枠組みの基本的な限界は、トレーニング分布から逸脱する推論経路を評価する際に、PRMの疫学的不確実性である。
本研究では,この課題を体系的に分析する。
まず, PRMsは, 分布外(OOD)サンプルに対して高い不確実性を示し, 信頼性が低いという実証的証拠を提示する。
そこで我々は,標準探索が線形後悔の蓄積を引き起こす一方で,不確実性認識戦略がサブ線形後悔を達成できることを示す理論的枠組みを確立する。
これらの結果から,モンテカルロ・ドロップアウトによる不確実性を推定し,強化学習に基づく制御を用いて計算予算を動的に割り当てる統一手法である不確実性認識木探索(UATS)を提案する。
大規模な実験により,本手法はOODエラーの影響を効果的に軽減することが示された。
関連論文リスト
- Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - TULiP: Test-time Uncertainty Estimation via Linearization and Weight Perturbation [11.334867025651233]
OOD検出のための理論駆動型不確実性推定器TULiPを提案する。
本手法では,収束前にネットワークに適用される仮説的摂動を考察する。
提案手法は,特に近分布試料について,最先端の性能を示す。
論文 参考訳(メタデータ) (2025-05-22T17:16:41Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Deterministic Uncertainty Propagation for Improved Model-Based Offline Reinforcement Learning [12.490614705930676]
本稿では,ベルマン目標計算によって得られたモンテカルロ試料数に対する準最適性の強い依存性を示す理論的結果を示す。
我々の主な貢献は、進行モーメントマッチングを利用するベルマン目標に対する決定論的近似である。
我々は,既存のモンテカルロサンプリング手法よりもMOMBOの準最適性について,より厳密な保証を提供することが可能であることを示す。
論文 参考訳(メタデータ) (2024-06-06T13:58:41Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Improving Out-of-Distribution Detection via Epistemic Uncertainty
Adversarial Training [29.4569172720654]
我々は,ドロップアウトアンサンブルによって予測される不確実性の攻撃を組み込んだ,単純な対向訓練手法を開発した。
本手法は,OOD検出性能を標準データ上で向上させる(逆向きではない)とともに,ほぼランダムな推定性能から$geq 0.75$まで,標準化された部分AUCを改善する。
論文 参考訳(メタデータ) (2022-09-05T14:32:19Z) - Uncertainty-Based Out-of-Distribution Classification in Deep
Reinforcement Learning [17.10036674236381]
アウト・オブ・ディストリビューションデータの誤予測は、機械学習システムにおける安全性の危機的状況を引き起こす可能性がある。
我々は不確実性に基づくOOD分類のためのフレームワークUBOODを提案する。
UBOODはアンサンブルに基づく推定器と組み合わせることで,信頼性の高い分類結果が得られることを示す。
論文 参考訳(メタデータ) (2019-12-31T09:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。