論文の概要: Don't Throw Away Your Beams: Improving Consistency-based Uncertainties in LLMs via Beam Search
- arxiv url: http://arxiv.org/abs/2512.09538v1
- Date: Wed, 10 Dec 2025 11:24:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.494839
- Title: Don't Throw Away Your Beams: Improving Consistency-based Uncertainties in LLMs via Beam Search
- Title(参考訳): ビームをスローしない:ビームサーチによるLCMの一貫性に基づく不確実性の改善
- Authors: Ekaterina Fadeeva, Maiya Goloburda, Aleksandr Rubashevskii, Roman Vashurin, Artem Shelmanov, Preslav Nakov, Mrinmaya Sachan, Maxim Panov,
- Abstract要約: 整合性に基づく不確実性推定の候補を生成するためにビームサーチを用いる新しい手法のファミリーを導入する。
我々は、6つのQAデータセットに対する我々のアプローチを実証的に評価し、その多項サンプリングに対する一貫した改善が最先端のUQパフォーマンスをもたらすことを発見した。
- 参考スコア(独自算出の注目度): 111.6996614063716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Consistency-based methods have emerged as an effective approach to uncertainty quantification (UQ) in large language models. These methods typically rely on several generations obtained via multinomial sampling, measuring their agreement level. However, in short-form QA, multinomial sampling is prone to producing duplicates due to peaked distributions, and its stochasticity introduces considerable variance in uncertainty estimates across runs. We introduce a new family of methods that employ beam search to generate candidates for consistency-based UQ, yielding improved performance and reduced variance compared to multinomial sampling. We also provide a theoretical lower bound on the beam set probability mass under which beam search achieves a smaller error than multinomial sampling. We empirically evaluate our approach on six QA datasets and find that its consistent improvements over multinomial sampling lead to state-of-the-art UQ performance.
- Abstract(参考訳): 一貫性に基づく手法は、大規模言語モデルにおける不確実性定量化(UQ)に対する効果的なアプローチとして現れている。
これらの手法は典型的には、マルチノミカルサンプリングによって得られた数世代に依拠し、それらの合意レベルを測定する。
しかし, 短時間のQAでは, ピーク分布による重複が生じる傾向があり, その確率性は, 走行中の不確実性推定にかなりのばらつきをもたらす。
本稿では, ビームサーチを用いて, 整合性に基づくUQの候補を生成する手法を提案する。
また、ビーム探索がマルチパラメータサンプリングよりも誤差の少ないビームセット確率質量の理論的下界も提供する。
我々は、6つのQAデータセットに対する我々のアプローチを実証的に評価し、その多項サンプリングに対する一貫した改善が最先端のUQパフォーマンスをもたらすことを発見した。
関連論文リスト
- Uncertainty Quantification for LLMs through Minimum Bayes Risk: Bridging Confidence and Consistency [66.96286531087549]
大規模言語モデル(LLM)のための不確実性定量化(UQ)手法は、様々なアプローチを含んでいる。
本稿では,モデル信頼度と出力整合性を統合する新しい手法を提案する。
我々は,質問応答,抽象要約,機械翻訳など,様々なタスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-02-07T14:30:12Z) - Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。
本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文 参考訳(メタデータ) (2025-01-15T04:09:21Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - SPUQ: Perturbation-Based Uncertainty Quantification for Large Language
Models [9.817185255633758]
大規模言語モデル(LLM)がますます普及し、顕著なテキスト生成機能を提供している。
プレッシャーの課題は、自信を持って間違った予測をする傾向にある。
本稿では,浮腫とてんかんの両不確実性に対処するために,新しいUQ法を提案する。
その結果,モデルキャリブレーションは大幅に改善し,予測誤差(ECE)は平均50%減少した。
論文 参考訳(メタデータ) (2024-03-04T21:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。