論文の概要: Estimating Semantic Alphabet Size for LLM Uncertainty Quantification
- arxiv url: http://arxiv.org/abs/2509.14478v1
- Date: Wed, 17 Sep 2025 23:16:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.999877
- Title: Estimating Semantic Alphabet Size for LLM Uncertainty Quantification
- Title(参考訳): LLM不確実性定量化のための意味的Alphabetサイズの推定
- Authors: Lucas H. McCabe, Rimon Melamed, Thomas Hartvigsen, H. Howie Huang,
- Abstract要約: 意味エントロピー推定のための改良された意味的アルファベットサイズ推定器を提案する。
サンプルカバレッジに個別の意味エントロピーを調整するために使用すると、より正確な意味エントロピー推定が得られる。
提案するアルファベットサイズ推定器フラグは,近年の上位性能のアプローチよりも,誤ったLDM応答を推定する。
- 参考スコア(独自算出の注目度): 12.029394705620724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many black-box techniques for quantifying the uncertainty of large language models (LLMs) rely on repeated LLM sampling, which can be computationally expensive. Therefore, practical applicability demands reliable estimation from few samples. Semantic entropy (SE) is a popular sample-based uncertainty estimator with a discrete formulation attractive for the black-box setting. Recent extensions of semantic entropy exhibit improved LLM hallucination detection, but do so with less interpretable methods that admit additional hyperparameters. For this reason, we revisit the canonical discrete semantic entropy estimator, finding that it underestimates the "true" semantic entropy, as expected from theory. We propose a modified semantic alphabet size estimator, and illustrate that using it to adjust discrete semantic entropy for sample coverage results in more accurate semantic entropy estimation in our setting of interest. Furthermore, our proposed alphabet size estimator flags incorrect LLM responses as well or better than recent top-performing approaches, with the added benefit of remaining highly interpretable.
- Abstract(参考訳): 大規模言語モデル(LLM)の不確かさを定量化する多くのブラックボックス技術は、計算コストのかかる繰り返しLLMサンプリングに依存している。
そのため,本手法の適用性は少ないサンプルから信頼性の高い推定を要求される。
セマンティックエントロピー (SE) は、ブラックボックス設定に魅力的な離散的な定式化を持つ一般的なサンプルベースの不確実性推定器である。
セマンティックエントロピーの最近の拡張は、LLM幻覚の検出を改善させたが、追加のハイパーパラメーターを許容する解釈の少ない手法で実現した。
このため、正準離散意味エントロピー推定器を再検討し、理論から予想される「真の」意味エントロピーを過小評価することを発見した。
改良された意味的アルファベットサイズ推定器を提案し、サンプルカバレッジに個別の意味的エントロピーを調整することで、興味のある設定においてより正確な意味的エントロピー推定ができることを示す。
さらに,我々の提案するアルファベットサイズ推定器フラグは,近年のトップパフォーマンスアプローチよりも誤りのLLM応答を補正し,高い解釈性を維持した。
関連論文リスト
- Semantic Energy: Detecting LLM Hallucination Beyond Entropy [106.92072182161712]
大規模言語モデル(LLM)は、現実のアプリケーションにますますデプロイされているが、幻覚の影響を受けやすいままである。
不確実性推定は、そのような幻覚を検出するための実現可能なアプローチである。
本稿では,新しい不確実性推定フレームワークであるセマンティック・エナジーを紹介する。
論文 参考訳(メタデータ) (2025-08-20T07:33:50Z) - Beyond Semantic Entropy: Boosting LLM Uncertainty Quantification with Pairwise Semantic Similarity [15.16188621701658]
大規模な言語モデルにおける幻覚は、典型的にはエントロピーを用いて測定されるモデル出力の不確実性を評価することによって検出することができる。
本稿では,近辺のエントロピー推定に着想を得た簡易なブラックボックス不確実性定量法を提案する。
また,トークンの確率を組み込むことで,ホワイトボックス設定に容易に拡張することができる。
論文 参考訳(メタデータ) (2025-05-30T21:21:05Z) - Improving Uncertainty Quantification in Large Language Models via Semantic Embeddings [11.33157177182775]
大規模言語モデル(LLM)における正確な不確実性の定量化は、信頼性の高いデプロイメントに不可欠である。
LLMにおける意味的不確実性を測定するための現在の最先端手法は、厳密な双方向の包含基準に依存している。
本研究では,意味的不確実性のよりスムーズでロバストな推定を実現するためにセマンティックな埋め込みを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-30T04:41:46Z) - Semantic Entropy Probes: Robust and Cheap Hallucination Detection in LLMs [32.901839335074676]
幻覚は、大規模言語モデルの導入において大きな課題となる。
Farquhar et al. (2024) による最近の研究はセマンティックエントロピー (SE) を提案している。
本稿では, 単一世代の隠蔽状態から直接SEを近似するSEPを提案する。
論文 参考訳(メタデータ) (2024-06-22T19:46:06Z) - REAL Sampling: Boosting Factuality and Diversity of Open-Ended Generation via Asymptotic Entropy [93.8400683020273]
大規模言語モデル(LLM)の復号法は通常、事実性の確保と多様性の維持のトレードオフに苦慮する。
核サンプリングにおける事実性および多様性を向上させる復号法であるREALサンプリングを提案する。
論文 参考訳(メタデータ) (2024-06-11T21:44:49Z) - Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。
ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:42:05Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。