論文の概要: Robust Search with Uncertainty-Aware Value Models for Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2502.11155v2
- Date: Sun, 19 Oct 2025 07:53:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:03.927859
- Title: Robust Search with Uncertainty-Aware Value Models for Language Model Reasoning
- Title(参考訳): 言語モデル推論のための不確かさを考慮したロバスト探索
- Authors: Fei Yu, Yingru Li, Benyou Wang,
- Abstract要約: 値モデル誘導探索はLLM生成のステアリングに有効であるが、堅牢性の欠如に悩まされている。
本研究では, 予測信頼性を定量化するために, 単一点値推定を値分布に置き換える不確実性認識値モデル (UVMs) と, 最適である確率に基づいて候補を選択するアルゴリズムであるグループトンプソンサンプリング (Group Thompson Sampling) の2つの主要な構成要素を持つ不確実性認識フレームワークを提案する。
- 参考スコア(独自算出の注目度): 31.973976155760397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Value model guided search is effective in steering LLM generation but suffers from a lack of robustness. This is due to verifier failure: imperfect VMs mistakenly prune valid reasoning paths, especially when encountering unseen reasoning paths generated during search. To address this, we propose an uncertainty-aware framework with two key components: (1) Uncertainty-Aware Value Models (UVMs), which replace single-point value estimates with value distributions to quantify prediction reliability, and (2) Group Thompson Sampling, an efficient algorithm that selects candidates based on their probability of being optimal. Experiments on two In-Distribution (ID) settings (GSM8K, MATH) and three Out-Of-Distribution (OOD) settings (e.g., AIME25, Minerva Math) show our method significantly mitigates verifier failure and boosts solution coverage, especially on OOD problems. This work provides the first systematic integration of uncertainty quantification into LLM search paradigms, enhancing robustness. The code is released at https://github.com/FreedomIntelligence/UVM.
- Abstract(参考訳): 値モデル誘導探索はLLM生成のステアリングに有効であるが、堅牢性の欠如に悩まされている。
不完全なVMは、特に検索中に予期せぬ推論パスに遭遇した場合、誤って有効な推論パスをプルーする。
これを解決するために,(1) 単一点値推定を値分布に置き換えて予測信頼性を定量化する不確実性認識値モデル (UVM) と,(2) 最適な確率に基づいて候補を選択するアルゴリズムであるグループトンプソンサンプリングを提案する。
2つのID設定(GSM8K, MATH)と3つのOf-Distribution(OOD)設定(例:AIME25, Minerva Math)の実験は、検証の失敗を著しく軽減し、特にOOD問題に対するソリューションカバレッジを著しく向上させることを示す。
この研究は、不確実性定量化をLLM探索パラダイムに初めて体系的に統合し、堅牢性を高める。
コードはhttps://github.com/FreedomIntelligence/UVMで公開されている。
関連論文リスト
- Scaling Flaws of Verifier-Guided Search in Mathematical Reasoning [16.824343439487617]
大規模言語モデル(LLM)は、推論時間スケーリングがパフォーマンス改善のための有望な戦略として現れている、多段階推論に苦しむ。
検証者誘導探索は、有効な推論経路を選択して優先順位付けすることにより、サンプリングサイズが制限されたときに繰り返しサンプリングより優れる。
サンプルサイズが大きくなるにつれて、検証者誘導探索は利点を減らし、最終的には繰り返しサンプリングを過小評価する。
論文 参考訳(メタデータ) (2025-02-01T02:08:49Z) - UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。
我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。
不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-03T17:39:38Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - On Uncertainty Calibration and Selective Generation in Probabilistic
Neural Summarization: A Benchmark Study [14.041071717005362]
要約のための最新のディープモデルは、優れたベンチマーク性能を得るが、誤校正された予測の不確実性を生成する傾向にある。
これは、低品質の予測に高い信頼性を割り当て、現実世界のアプリケーションにおける信頼性と信頼性を損なうことを意味する。
確率的深層学習法は誤校正問題の一般的な解法であるが, 複雑な自己回帰的要約タスクにおける相対的有効性はよく理解されていない。
論文 参考訳(メタデータ) (2023-04-17T23:06:28Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - Density-Softmax: Efficient Test-time Model for Uncertainty Estimation and Robustness under Distribution Shifts [8.431465371266391]
密度-ソフトマックスは、不確実性推定のためのサンプリング不要な決定論的なフレームワークである。
我々は,このモデルがミニマックス不確実性リスクの解であることを示した。
本手法は,不確実性と堅牢性の観点から,最先端技術と競合する結果を享受する。
論文 参考訳(メタデータ) (2023-02-13T16:21:03Z) - Composed Image Retrieval with Text Feedback via Multi-grained
Uncertainty Regularization [73.04187954213471]
粗い検索ときめ細かい検索を同時にモデル化する統合学習手法を提案する。
提案手法は、強いベースラインに対して+4.03%、+3.38%、+2.40%のRecall@50精度を達成した。
論文 参考訳(メタデータ) (2022-11-14T14:25:40Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z) - Tightening the Approximation Error of Adversarial Risk with Auto Loss
Function Search [12.263913626161155]
一般的な評価手法は、モデルの逆方向リスクをロバスト性指標として近似することである。
本稿では,エラーを厳格化するための損失関数を探索する最初の手法であるAutoLoss-ARを提案する。
その結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-11-09T11:47:43Z) - Improving Deterministic Uncertainty Estimation in Deep Learning for
Classification and Regression [30.112634874443494]
単一前方通過における不確かさを推定する新しいモデルを提案する。
提案手法では,バイリプシッツ特徴抽出器とガウス過程の誘導点を組み合わせ,ロバストかつ原理的不確実性推定を行う。
論文 参考訳(メタデータ) (2021-02-22T23:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。