論文の概要: Uncertainty-Aware Search and Value Models: Mitigating Search Scaling Flaws in LLMs
- arxiv url: http://arxiv.org/abs/2502.11155v1
- Date: Sun, 16 Feb 2025 15:10:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:16:07.710701
- Title: Uncertainty-Aware Search and Value Models: Mitigating Search Scaling Flaws in LLMs
- Title(参考訳): 不確かさを意識した検索と価値モデル:LLMにおける検索スケーリング欠陥の軽減
- Authors: Fei Yu, Yingru Li, Benyou Wang,
- Abstract要約: 本稿では,2つのキーコンポーネントを含む不確実性を考慮した検索フレームワークを提案する。
従来の値誘導探索では85.8%であった16サンプルに対して90.5%のカバレッジを達成した。
- 参考スコア(独自算出の注目度): 16.824343439487617
- License:
- Abstract: Value model-guided search is effective in steering the generation but suffers from scaling flaws: Its superiority diminishes with larger sample sizes, underperforming non-search baselines. This limitation arises from reliability degradation in value models in unseen reasoning paths. To address this, we propose an uncertainty-aware search framework that includes two key components: (1) uncertainty-aware value models that incorporate uncertainty into predictions, and (2) an uncertainty-aware selection process using the proposed efficient Group Thompson Sampling algorithm. Experiments on GSM8K show that our method mitigates search scaling flaws, achieving 90.5% coverage at 16 samples compared to 85.8% for conventional value-guided search. This work establishes the first systematic integration of uncertainty quantification in LLM search paradigms.
- Abstract(参考訳): バリューモデル誘導探索は、生成を操る上で有効であるが、スケーリング上の欠陥に悩まされている。
この制限は、見当たらない推論経路における値モデルの信頼性低下から生じる。
そこで本研究では,(1)不確かさを予測に組み込んだ不確実性認識値モデル,(2)効率的なグループトンプソンサンプリングアルゴリズムを用いた不確実性認識選択プロセスの2つの主要な構成要素を含む不確実性認識検索フレームワークを提案する。
GSM8Kを用いた実験では,従来の値誘導探索では85.8%に対して,16サンプルで90.5%のカバレッジを達成した。
この研究は、LLM探索パラダイムにおける不確実性定量化の最初の体系的な統合を確立する。
関連論文リスト
- Scaling Flaws of Verifier-Guided Search in Mathematical Reasoning [16.824343439487617]
大規模言語モデル(LLM)は、推論時間スケーリングがパフォーマンス改善のための有望な戦略として現れている、多段階推論に苦しむ。
検証者誘導探索は、有効な推論経路を選択して優先順位付けすることにより、サンプリングサイズが制限されたときに繰り返しサンプリングより優れる。
サンプルサイズが大きくなるにつれて、検証者誘導探索は利点を減らし、最終的には繰り返しサンプリングを過小評価する。
論文 参考訳(メタデータ) (2025-02-01T02:08:49Z) - UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。
我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。
不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-03T17:39:38Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - On Uncertainty Calibration and Selective Generation in Probabilistic
Neural Summarization: A Benchmark Study [14.041071717005362]
要約のための最新のディープモデルは、優れたベンチマーク性能を得るが、誤校正された予測の不確実性を生成する傾向にある。
これは、低品質の予測に高い信頼性を割り当て、現実世界のアプリケーションにおける信頼性と信頼性を損なうことを意味する。
確率的深層学習法は誤校正問題の一般的な解法であるが, 複雑な自己回帰的要約タスクにおける相対的有効性はよく理解されていない。
論文 参考訳(メタデータ) (2023-04-17T23:06:28Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - Density-Softmax: Efficient Test-time Model for Uncertainty Estimation and Robustness under Distribution Shifts [8.431465371266391]
密度-ソフトマックスは、不確実性推定のためのサンプリング不要な決定論的なフレームワークである。
我々は,このモデルがミニマックス不確実性リスクの解であることを示した。
本手法は,不確実性と堅牢性の観点から,最先端技術と競合する結果を享受する。
論文 参考訳(メタデータ) (2023-02-13T16:21:03Z) - Composed Image Retrieval with Text Feedback via Multi-grained
Uncertainty Regularization [73.04187954213471]
粗い検索ときめ細かい検索を同時にモデル化する統合学習手法を提案する。
提案手法は、強いベースラインに対して+4.03%、+3.38%、+2.40%のRecall@50精度を達成した。
論文 参考訳(メタデータ) (2022-11-14T14:25:40Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z) - Tightening the Approximation Error of Adversarial Risk with Auto Loss
Function Search [12.263913626161155]
一般的な評価手法は、モデルの逆方向リスクをロバスト性指標として近似することである。
本稿では,エラーを厳格化するための損失関数を探索する最初の手法であるAutoLoss-ARを提案する。
その結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-11-09T11:47:43Z) - Improving Deterministic Uncertainty Estimation in Deep Learning for
Classification and Regression [30.112634874443494]
単一前方通過における不確かさを推定する新しいモデルを提案する。
提案手法では,バイリプシッツ特徴抽出器とガウス過程の誘導点を組み合わせ,ロバストかつ原理的不確実性推定を行う。
論文 参考訳(メタデータ) (2021-02-22T23:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。