論文の概要: Beyond Semantic Entropy: Boosting LLM Uncertainty Quantification with Pairwise Semantic Similarity
- arxiv url: http://arxiv.org/abs/2506.00245v1
- Date: Fri, 30 May 2025 21:21:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.578717
- Title: Beyond Semantic Entropy: Boosting LLM Uncertainty Quantification with Pairwise Semantic Similarity
- Title(参考訳): セマンティックエントロピーを超えて: ペアワイズ・セマンティック類似性を用いたLLM不確かさ定量化
- Authors: Dang Nguyen, Ali Payani, Baharan Mirzasoleiman,
- Abstract要約: 大規模な言語モデルにおける幻覚は、典型的にはエントロピーを用いて測定されるモデル出力の不確実性を評価することによって検出することができる。
本稿では,近辺のエントロピー推定に着想を得た簡易なブラックボックス不確実性定量法を提案する。
また,トークンの確率を組み込むことで,ホワイトボックス設定に容易に拡張することができる。
- 参考スコア(独自算出の注目度): 15.16188621701658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucination in large language models (LLMs) can be detected by assessing the uncertainty of model outputs, typically measured using entropy. Semantic entropy (SE) enhances traditional entropy estimation by quantifying uncertainty at the semantic cluster level. However, as modern LLMs generate longer one-sentence responses, SE becomes less effective because it overlooks two crucial factors: intra-cluster similarity (the spread within a cluster) and inter-cluster similarity (the distance between clusters). To address these limitations, we propose a simple black-box uncertainty quantification method inspired by nearest neighbor estimates of entropy. Our approach can also be easily extended to white-box settings by incorporating token probabilities. Additionally, we provide theoretical results showing that our method generalizes semantic entropy. Extensive empirical results demonstrate its effectiveness compared to semantic entropy across two recent LLMs (Phi3 and Llama3) and three common text generation tasks: question answering, text summarization, and machine translation. Our code is available at https://github.com/BigML-CS-UCLA/SNNE.
- Abstract(参考訳): 大規模言語モデル(LLM)における幻覚は、典型的にはエントロピーを用いて測定されるモデル出力の不確実性を評価することによって検出することができる。
セマンティックエントロピー(SE)は、セマンティッククラスタレベルでの不確実性を定量化することで、従来のエントロピー推定を強化する。
しかし、現代のLCMはより長い一文応答を生成するため、SEはクラスタ内類似性(クラスタ内の拡散)とクラスタ間類似性(クラスタ間の距離)という2つの重要な要因を見落としているため、効果が低下する。
これらの制約に対処するため、近辺のエントロピー推定から着想を得た単純なブラックボックス不確実性定量法を提案する。
また,トークンの確率を組み込むことで,ホワイトボックス設定に容易に拡張することができる。
さらに,本手法が意味エントロピーを一般化することを示す理論的結果を提供する。
最近の2つのLLM(Phi3とLlama3)と3つの共通テキスト生成タスク(質問応答、テキスト要約、機械翻訳)のセマンティックエントロピーと比較して、その有効性を示す。
私たちのコードはhttps://github.com/BigML-CS-UCLA/SNNE.comで公開されています。
関連論文リスト
- Entropy-Based Block Pruning for Efficient Large Language Models [81.18339597023187]
性能を維持しつつ効率を向上するエントロピー型プルーニング戦略を提案する。
経験的分析により、隠れ表現のエントロピーは初期ブロックでは減少するが、その後のほとんどのブロックでは徐々に増加することが明らかとなった。
論文 参考訳(メタデータ) (2025-04-04T03:42:34Z) - Improving Uncertainty Quantification in Large Language Models via Semantic Embeddings [11.33157177182775]
大規模言語モデル(LLM)における正確な不確実性の定量化は、信頼性の高いデプロイメントに不可欠である。
LLMにおける意味的不確実性を測定するための現在の最先端手法は、厳密な双方向の包含基準に依存している。
本研究では,意味的不確実性のよりスムーズでロバストな推定を実現するためにセマンティックな埋め込みを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-30T04:41:46Z) - Uncertainty Quantification in Large Language Models Through Convex Hull Analysis [0.36832029288386137]
本研究では凸船体解析を用いた不確実性定量化のための新しい幾何学的手法を提案する。
提案手法は, 応答埋め込みの空間特性を利用して, モデル出力の分散と可変性を計測する。
論文 参考訳(メタデータ) (2024-06-28T07:47:34Z) - Semantic Entropy Probes: Robust and Cheap Hallucination Detection in LLMs [32.901839335074676]
幻覚は、大規模言語モデルの導入において大きな課題となる。
Farquhar et al. (2024) による最近の研究はセマンティックエントロピー (SE) を提案している。
本稿では, 単一世代の隠蔽状態から直接SEを近似するSEPを提案する。
論文 参考訳(メタデータ) (2024-06-22T19:46:06Z) - REAL Sampling: Boosting Factuality and Diversity of Open-Ended Generation via Asymptotic Entropy [93.8400683020273]
大規模言語モデル(LLM)の復号法は通常、事実性の確保と多様性の維持のトレードオフに苦慮する。
核サンプリングにおける事実性および多様性を向上させる復号法であるREALサンプリングを提案する。
論文 参考訳(メタデータ) (2024-06-11T21:44:49Z) - Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。
ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:42:05Z) - Quantifying Semantic Emergence in Language Models [31.608080868988825]
大規模言語モデル (LLM) は意味論的意味を捉える特別な能力として広く認識されている。
本研究では,入力トークンから意味を抽出するLLMの能力を測定するために,量的指標である情報創発(IE)を導入する。
論文 参考訳(メタデータ) (2024-05-21T09:12:20Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。