論文の概要: The Illusion of Progress: Re-evaluating Hallucination Detection in LLMs
- arxiv url: http://arxiv.org/abs/2508.08285v2
- Date: Wed, 13 Aug 2025 22:09:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 15:52:17.054651
- Title: The Illusion of Progress: Re-evaluating Hallucination Detection in LLMs
- Title(参考訳): 進行のイラシオン:LLMにおける幻覚検出の再評価
- Authors: Denis Janiak, Jakub Binkowski, Albert Sawczyn, Bogdan Gabrys, Ravid Shwartz-Ziv, Tomasz Kajdanowicz,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、その幻覚化傾向は信頼性の高いデプロイメントに深刻な課題をもたらす。
幻覚検出法は多数あるが、その評価は人間の判断と不一致した語彙的重なりに基づく尺度であるROUGEに依存することが多い。
我々は,幻覚検出手法の真の性能を正確に評価するために,意味的認識と頑健な評価フレームワークの採用が不可欠であると主張している。
- 参考スコア(独自算出の注目度): 10.103648327848763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have revolutionized natural language processing, yet their tendency to hallucinate poses serious challenges for reliable deployment. Despite numerous hallucination detection methods, their evaluations often rely on ROUGE, a metric based on lexical overlap that misaligns with human judgments. Through comprehensive human studies, we demonstrate that while ROUGE exhibits high recall, its extremely low precision leads to misleading performance estimates. In fact, several established detection methods show performance drops of up to 45.9\% when assessed using human-aligned metrics like LLM-as-Judge. Moreover, our analysis reveals that simple heuristics based on response length can rival complex detection techniques, exposing a fundamental flaw in current evaluation practices. We argue that adopting semantically aware and robust evaluation frameworks is essential to accurately gauge the true performance of hallucination detection methods, ultimately ensuring the trustworthiness of LLM outputs.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、その幻覚化傾向は信頼性の高いデプロイメントに深刻な課題をもたらす。
幻覚検出法は多数あるが、その評価は人間の判断と不一致した語彙的重なりに基づく尺度であるROUGEに依存することが多い。
総合的な人間の研究を通して、ROUGEは高いリコールを示すが、その極めて低い精度は、性能推定を誤解を招くことを示した。
実際、いくつかの確立された検出手法は、LCM-as-Judgeのような人為的な指標を用いて評価した場合、最大45.9 %の性能低下を示す。
さらに, 応答長に基づく単純なヒューリスティックスは, 複雑な検出手法と競合し, 現在の評価手法の根本的な欠陥を明らかにする。
意味的認識と頑健な評価フレームワークの採用は、幻覚検出手法の真の性能を正確に評価し、最終的にLLM出力の信頼性を確保するために不可欠である、と我々は主張する。
関連論文リスト
- Counterfactual Probing for Hallucination Detection and Mitigation in Large Language Models [0.0]
本研究では,大規模言語モデルにおける幻覚の検出と緩和のための新しいアプローチである,対物探索を提案する。
提案手法は, 疑わしいが微妙な事実誤りを含む反事実文を動的に生成し, これらの摂動に対するモデルの感度を評価する。
論文 参考訳(メタデータ) (2025-08-03T17:29:48Z) - ICR Probe: Tracking Hidden State Dynamics for Reliable Hallucination Detection in LLMs [50.18087419133284]
隠れた状態を活用する幻覚検出法は、主に静的および孤立した表現に焦点を当てている。
隠れ状態の更新に対するモジュールの寄与を定量化する新しいメトリック ICR Score を導入する。
本稿では,隠れ状態の層間進化を捉えた幻覚検出手法 ICR Probe を提案する。
論文 参考訳(メタデータ) (2025-07-22T11:44:26Z) - Evaluating Evaluation Metrics -- The Mirage of Hallucination Detection [26.521892016176036]
幻覚は言語モデルの信頼性と普及に大きな障害となる。
4つのデータセット、37の言語モデル、5つの復号法で幻覚検出指標を大規模に評価する。
論文 参考訳(メタデータ) (2025-04-25T06:37:29Z) - REFIND at SemEval-2025 Task 3: Retrieval-Augmented Factuality Hallucination Detection in Large Language Models [15.380441563675243]
REFIND(Retrieval-augmented Factuality Hallucination Detection)は、大規模言語モデル(LLM)出力内の幻覚スパンを検出する新しいフレームワークである。
本研究では,LLM出力の感度を定量的に評価する新しい指標であるコンテキスト感度比(CSR)を提案する。
REFINDは低リソース設定を含む9つの言語で堅牢性を示し、ベースラインモデルではかなり優れていた。
論文 参考訳(メタデータ) (2025-02-19T10:59:05Z) - Comparing Hallucination Detection Metrics for Multilingual Generation [62.97224994631494]
本稿では,各言語にまたがって生成した伝記要約における幻覚を,様々な事実の幻覚検出指標がいかによく識別するかを評価する。
自動測度が相互にどのように相関するか, 事実判断に一致しているかを比較検討した。
我々の分析によると、語彙指標は非効率であるが、NLIベースのメトリクスはよく機能し、多くの設定における人間のアノテーションと相関し、しばしば教師付きモデルよりも優れている。
論文 参考訳(メタデータ) (2024-02-16T08:10:34Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。