論文の概要: Learned Hallucination Detection in Black-Box LLMs using Token-level Entropy Production Rate
- arxiv url: http://arxiv.org/abs/2509.04492v1
- Date: Mon, 01 Sep 2025 13:34:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.332319
- Title: Learned Hallucination Detection in Black-Box LLMs using Token-level Entropy Production Rate
- Title(参考訳): トークンレベルのエントロピー生成速度を用いたブラックボックスLLMの学習幻覚検出
- Authors: Charles Moslonka, Hicham Randrianarivo, Arthur Garnier, Emmanuel Malherbe,
- Abstract要約: 大きな言語モデル(LLM)における幻覚は、質問回答タスクの出力が現実世界の信頼性を著しく損なう。
本稿では,データアクセスに制限のあるシナリオに特化して設計された,ロバストでワンショットの幻覚検出のための応用手法を提案する。
提案手法は,非グリーディ復号時に生成したこれらのログ確率から直接不確実性指標を導出する。
- 参考スコア(独自算出の注目度): 0.19676943624884313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucinations in Large Language Model (LLM) outputs for Question Answering (QA) tasks critically undermine their real-world reliability. This paper introduces an applied methodology for robust, one-shot hallucination detection, specifically designed for scenarios with limited data access, such as interacting with black-box LLM APIs that typically expose only a few top candidate log-probabilities per token. Our approach derives uncertainty indicators directly from these readily available log-probabilities generated during non-greedy decoding. We first derive an Entropy Production Rate (EPR) metric that offers baseline performance, later augmented with supervised learning. Our learned model uses features representing the entropic contributions of the accessible top-ranked tokens within a single generated sequence, requiring no multiple query re-runs. Evaluated across diverse QA datasets and multiple LLMs, this estimator significantly improves hallucination detection over using EPR alone. Crucially, high performance is demonstrated using only the typically small set of available log-probabilities (e.g., top <10 per token), confirming its practical efficiency and suitability for these API-constrained deployments. This work provides a readily deployable technique to enhance the trustworthiness of LLM responses from a single generation pass in QA and Retrieval-Augmented Generation (RAG) systems, with its utility further demonstrated in a finance framework analyzing responses to queries on annual reports from an industrial dataset.
- Abstract(参考訳): 大規模言語モデル(LLM)における幻覚は、質問回答(QA)タスクの出力が現実世界の信頼性を著しく損なう。
本稿では,トークンごとの最大ログ確率のみを公開するブラックボックスLDM APIとのインタラクションなど,限られたデータアクセスを持つシナリオを対象とした,ロバストでワンショットの幻覚検出を応用した手法を提案する。
提案手法は,非グリーディ復号時に生成したこれらのログ確率から直接不確実性指標を導出する。
最初に、ベースラインのパフォーマンスを提供するエントロピー生産率(EPR)メトリクスを導き、後に教師付き学習で拡張します。
我々の学習モデルは、単一の生成シーケンス内でアクセス可能なトップランクトークンのエントロピー的コントリビューションを表す機能を使用し、複数のクエリ再実行を必要としない。
多様なQAデータセットと複数のLLMで評価され、この推定器はEPRのみを用いて幻覚の検出を大幅に改善する。
重要なのは、一般的に利用可能なログ確率の小さなセット(トークン当たりのトップ<10)のみを使用して、パフォーマンスを実証し、これらのAPI制約されたデプロイメントの実用的効率と適合性を確認することだ。
本研究は,産業用データセットからの年次報告に対する問い合わせに対する応答を解析する金融フレームワークにおいて,QAおよびRAGシステムにおける単一世代パスからのLCM応答の信頼性を高めるための,容易に展開可能な技術を提供する。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Unleashing the Power of LLMs in Dense Retrieval with Query Likelihood Modeling [69.84963245729826]
本稿では,検索者の後続のコントラスト学習のためのバックボーンを強化するために,QLの補助的タスクを提案する。
注意ブロック(AB)と文書破壊(DC)の2つの重要なコンポーネントを組み込んだモデルを紹介します。
論文 参考訳(メタデータ) (2025-04-07T16:03:59Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [60.881609323604685]
ブラックボックスAPIを通じてアクセスされるLarge Language Models (LLM)は、信頼の課題をもたらす。
ユーザーは、宣伝されたモデル機能に基づいたサービスの料金を支払う。
プロバイダは、運用コストを削減するために、特定のモデルを安価で低品質の代替品に隠蔽的に置き換えることができる。
この透明性の欠如は、公正性を損なうとともに、信頼を損なうとともに、信頼性の高いベンチマークを複雑にする。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - Learning on LLM Output Signatures for gray-box Behavior Analysis [52.81120759532526]
大きな言語モデル(LLM)は広く採用されていますが、その振る舞いに対する私たちの理解は限定的です。
グレーボックス設定におけるプロセス汚染とデータ検出のためのトランスフォーマーベースのアプローチを開発する。
提案手法は,グレーボックス設定における幻覚とデータ検出における優れた性能を実現し,既存のベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-03-18T09:04:37Z) - Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。
本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。
この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文 参考訳(メタデータ) (2024-05-30T03:00:47Z) - HypoTermQA: Hypothetical Terms Dataset for Benchmarking Hallucination
Tendency of LLMs [0.0]
幻覚は、大規模言語モデル(LLM)の信頼性と整合性に重大な課題をもたらす
本稿では,LLMの幻覚傾向のベンチマークと効率的な幻覚検出を組み合わせた,スケーラブルな自動フレームワークを提案する。
フレームワークはドメインに依存しないため、任意のドメインでのベンチマーク作成や評価に任意の言語モデルを使用することができる。
論文 参考訳(メタデータ) (2024-02-25T22:23:37Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。