論文の概要: Don't Throw Away Your Beams: Improving Consistency-based Uncertainties in LLMs via Beam Search
- arxiv url: http://arxiv.org/abs/2512.09538v1
- Date: Wed, 10 Dec 2025 11:24:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.494839
- Title: Don't Throw Away Your Beams: Improving Consistency-based Uncertainties in LLMs via Beam Search
- Title(参考訳): ビームをスローしない:ビームサーチによるLCMの一貫性に基づく不確実性の改善
- Authors: Ekaterina Fadeeva, Maiya Goloburda, Aleksandr Rubashevskii, Roman Vashurin, Artem Shelmanov, Preslav Nakov, Mrinmaya Sachan, Maxim Panov,
- Abstract要約: 整合性に基づく不確実性推定の候補を生成するためにビームサーチを用いる新しい手法のファミリーを導入する。
我々は、6つのQAデータセットに対する我々のアプローチを実証的に評価し、その多項サンプリングに対する一貫した改善が最先端のUQパフォーマンスをもたらすことを発見した。
- 参考スコア(独自算出の注目度): 111.6996614063716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Consistency-based methods have emerged as an effective approach to uncertainty quantification (UQ) in large language models. These methods typically rely on several generations obtained via multinomial sampling, measuring their agreement level. However, in short-form QA, multinomial sampling is prone to producing duplicates due to peaked distributions, and its stochasticity introduces considerable variance in uncertainty estimates across runs. We introduce a new family of methods that employ beam search to generate candidates for consistency-based UQ, yielding improved performance and reduced variance compared to multinomial sampling. We also provide a theoretical lower bound on the beam set probability mass under which beam search achieves a smaller error than multinomial sampling. We empirically evaluate our approach on six QA datasets and find that its consistent improvements over multinomial sampling lead to state-of-the-art UQ performance.
- Abstract(参考訳): 一貫性に基づく手法は、大規模言語モデルにおける不確実性定量化(UQ)に対する効果的なアプローチとして現れている。
これらの手法は典型的には、マルチノミカルサンプリングによって得られた数世代に依拠し、それらの合意レベルを測定する。
しかし, 短時間のQAでは, ピーク分布による重複が生じる傾向があり, その確率性は, 走行中の不確実性推定にかなりのばらつきをもたらす。
本稿では, ビームサーチを用いて, 整合性に基づくUQの候補を生成する手法を提案する。
また、ビーム探索がマルチパラメータサンプリングよりも誤差の少ないビームセット確率質量の理論的下界も提供する。
我々は、6つのQAデータセットに対する我々のアプローチを実証的に評価し、その多項サンプリングに対する一貫した改善が最先端のUQパフォーマンスをもたらすことを発見した。
関連論文リスト
- Uncertainty Quantification for LLMs through Minimum Bayes Risk: Bridging Confidence and Consistency [66.96286531087549]
大規模言語モデル(LLM)のための不確実性定量化(UQ)手法は、様々なアプローチを含んでいる。
本稿では,モデル信頼度と出力整合性を統合する新しい手法を提案する。
我々は,質問応答,抽象要約,機械翻訳など,様々なタスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-02-07T14:30:12Z) - Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。
本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文 参考訳(メタデータ) (2025-01-15T04:09:21Z) - The Polynomial Stein Discrepancy for Assessing Moment Convergence [1.0835264351334324]
本研究では,サンプルの集合とベイズ推定のための所望の後方分布との差を測定する新しい手法を提案する。
いくつかの例において、このテストは競合他社よりも高いパワーを持ち、計算コストが低いことを示す。
論文 参考訳(メタデータ) (2024-12-06T15:51:04Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - SPUQ: Perturbation-Based Uncertainty Quantification for Large Language
Models [9.817185255633758]
大規模言語モデル(LLM)がますます普及し、顕著なテキスト生成機能を提供している。
プレッシャーの課題は、自信を持って間違った予測をする傾向にある。
本稿では,浮腫とてんかんの両不確実性に対処するために,新しいUQ法を提案する。
その結果,モデルキャリブレーションは大幅に改善し,予測誤差(ECE)は平均50%減少した。
論文 参考訳(メタデータ) (2024-03-04T21:55:22Z) - Combining Confidence Elicitation and Sample-based Methods for
Uncertainty Quantification in Misinformation Mitigation [6.929834518749884]
誤情報緩和に対処する主要な候補として、大規模言語モデルが登場している。
既存のアプローチは幻覚や過信的な予測に苦しむ。
本稿では, 直接信頼誘導法とサンプルベース整合性法の両方を活用する不確実性定量化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T16:36:58Z) - ProBoost: a Boosting Method for Probabilistic Classifiers [55.970609838687864]
ProBoostは確率的分類器のための新しいブースティングアルゴリズムである。
各トレーニングサンプルの不確実性を使用して、最も困難で不確実なものを決定する。
これは、最も不確実性が高いと判明したサンプルに徐々に焦点をあてる配列を生成する。
論文 参考訳(メタデータ) (2022-09-04T12:49:20Z) - Learning generative models for valid knockoffs using novel
multivariate-rank based statistics [12.528602250193206]
ランクエネルギー (RE) は、Monge's Optimal Transport (OT) 問題における最適写像を特徴付ける理論的結果を用いて導出される。
我々は、ソフトランクエネルギー(sRE)と呼ばれるREの変種と、ソフトランク最大平均誤差(sRMMD)と呼ばれるカーネル変種を提案する。
次に、sRMMDを用いて深いノックオフを生成し、有効なノックオフを生成するための新規かつ効果的な方法であることを示す。
論文 参考訳(メタデータ) (2021-10-29T18:51:19Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。