論文の概要: The Consistency Hypothesis in Uncertainty Quantification for Large Language Models
- arxiv url: http://arxiv.org/abs/2506.21849v1
- Date: Fri, 27 Jun 2025 01:53:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.049546
- Title: The Consistency Hypothesis in Uncertainty Quantification for Large Language Models
- Title(参考訳): 大規模言語モデルにおける不確実性定量化の一貫性仮説
- Authors: Quan Xiao, Debarun Bhattacharjya, Balaji Ganesan, Radu Marinescu, Katsiaryna Mirylenka, Nhan H Pham, Michael Glass, Junkyu Lee,
- Abstract要約: モデルAPIアクセスのみに依存するブラックボックス不確実性定量化(UQ)手法は,その実用的メリットから人気を博している。
本稿では,自信の代用として生成整合性を利用するUQ手法の背景にある暗黙的な仮定について検討する。
信頼度推定のための世代間類似性を集約するデータフリーなブラックボックスUQ手法を提案する。
- 参考スコア(独自算出の注目度): 22.60039074743706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating the confidence of large language model (LLM) outputs is essential for real-world applications requiring high user trust. Black-box uncertainty quantification (UQ) methods, relying solely on model API access, have gained popularity due to their practical benefits. In this paper, we examine the implicit assumption behind several UQ methods, which use generation consistency as a proxy for confidence, an idea we formalize as the consistency hypothesis. We introduce three mathematical statements with corresponding statistical tests to capture variations of this hypothesis and metrics to evaluate LLM output conformity across tasks. Our empirical investigation, spanning 8 benchmark datasets and 3 tasks (question answering, text summarization, and text-to-SQL), highlights the prevalence of the hypothesis under different settings. Among the statements, we highlight the `Sim-Any' hypothesis as the most actionable, and demonstrate how it can be leveraged by proposing data-free black-box UQ methods that aggregate similarities between generations for confidence estimation. These approaches can outperform the closest baselines, showcasing the practical value of the empirically observed consistency hypothesis.
- Abstract(参考訳): 大規模言語モデル(LLM)の出力の信頼性を推定することは、高いユーザ信頼を必要とする現実のアプリケーションにとって不可欠である。
モデルAPIアクセスのみに依存するブラックボックス不確実性定量化(UQ)手法は,その実用的メリットから人気を博している。
本稿では,自信の代用として生成整合性を利用するUQ手法の背景にある暗黙的な仮定を考察し,一貫性仮説として定式化する。
本稿では,3つの数学的ステートメントを導入して,この仮説とメトリクスの変動を捉え,タスク間のLLM出力の整合性を評価する。
8つのベンチマークデータセットと3つのタスク(質問応答、テキスト要約、テキストからSQL)にまたがる実験的な調査では、異なる設定下での仮説の正当性を強調しています。
論文の中では,「Sim-Any」仮説を最も実行可能なものとして取り上げ,信頼度推定のために世代間の類似性を集約するデータフリーなブラックボックスUQ手法を提案する。
これらのアプローチは、経験的に観察された一貫性仮説の実用的価値を示すため、最も近いベースラインを上回ることができる。
関連論文リスト
- Confidence in Large Language Model Evaluation: A Bayesian Approach to Limited-Sample Challenges [13.526258635654882]
本研究では,大規模言語モデル(LLM)能力評価のためのベイズ的アプローチを提案する。
モデル機能を潜時変数として扱い、キュレートされたクエリセットを利用して識別応答を誘導する。
GPTシリーズモデルを用いた実験により,提案手法は従来の評価手法よりも優れた識別性が得られることが示された。
論文 参考訳(メタデータ) (2025-04-30T04:24:50Z) - Uncertainty Quantification for LLMs through Minimum Bayes Risk: Bridging Confidence and Consistency [66.96286531087549]
大規模言語モデル(LLM)のための不確実性定量化(UQ)手法は、様々なアプローチを含んでいる。
本稿では,モデル信頼度と出力整合性を統合する新しい手法を提案する。
我々は,質問応答,抽象要約,機械翻訳など,様々なタスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-02-07T14:30:12Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Data Association Aware POMDP Planning with Hypothesis Pruning
Performance Guarantees [7.928094304325113]
あいまいなデータアソシエーションによるプランニングのためのプルーニングに基づくアプローチを導入する。
我々の重要な貢献は、仮説の完全な集合に基づく値関数と仮説のプルーンド・サブセットに基づく値関数とのバウンダリを導出することである。
我々は,これらの境界が,ふりかえりにおけるプルーニングの証明にどのように使用できるかを実証し,その損失に対する事前定義された限界を確保するために,どの仮説がプルーンであるかを決定する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-03T18:35:01Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。