論文の概要: Rethinking Evaluation for LLM Hallucination Detection: A Desiderata, A New RAG-based Benchmark, New Insights
- arxiv url: http://arxiv.org/abs/2605.11330v1
- Date: Mon, 11 May 2026 23:33:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.477996
- Title: Rethinking Evaluation for LLM Hallucination Detection: A Desiderata, A New RAG-based Benchmark, New Insights
- Title(参考訳): LLM幻覚検出のための再考:新しいRAGベンチマークであるDesiderata
- Authors: Wenbo Chen, Veena Padmanabhan, Tootiya Giyahchi, Elaine Wong, Leman Akoglu,
- Abstract要約: 我々は、厳格な人間のアノテーションプロセスを実行した新しいRAGベースのHDB、T RIVIA+を構築し、オープンソース化した。
特に,本ベンチマークでは,(1)T RIVIA+は文献中で最も長い文脈のサンプルを含む,望ましいすべての特性を示す。
我々は、一般的なSOTA検出器を用いて、RAGベースのHDB(T RIVIA+を含む)の実験を行い、新しい知見を明らかにした。
- 参考スコア(独自算出の注目度): 14.723073002701492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucination, broadly referring to unfaithful, fabricated, or inconsistent content generated by LLMs, has wide-ranging implications. Therefore, a large body of effort has been devoted to detecting LLM hallucinations, as well as designing benchmark datasets for evaluating these detectors. In this work, we first establish a desiderata of properties for hallucination detection benchmarks (HDBs) to exhibit for effective evaluation. A critical look at existing HDBs through the lens of our desiderata reveals that none of them exhibits all the properties. We identify two largest gaps: (1) RAG-based grounded benchmarks with long context are severely lacking (partly because length impedes human annotation); and (2) Existing benchmarks do not make available realistic label noise for stress-testing detectors although real-world use-cases often grapple with label noise due to human or automated/weak annotation. To close these gaps, we build and open-source a new RAG-based HDB called T RIVIA+ that underwent a rigorous human annotation process. Notably, our benchmark exhibits all desirable properties including (1) T RIVIA+ contains samples with the longest context in the literature; and (2) we design and share four sets of noisy labels with different, both sample-dependent and sampleindependent, noise schemes. Finally, we perform experiments on RAG-based HDBs, including our T RIVIA+, using popular SOTA detectors that reveal new insights: (i) ample room remains for current detectors to reach the performance ceiling on RAG-based HDBs, (ii) the basic LLM-as-a-Judge baseline performs competitively, and (iii) label noise hinders detection performance. We expect that our findings, along with our proposed benchmark 1 , will motivate and foster needed research on hallucination detection for RAG-based tasks.
- Abstract(参考訳): 幻覚は、LLMによって生成される不誠実、製造された、または一貫性のない内容を指し、広範囲に影響を及ぼす。
そのため、LSM幻覚の検出や、これらの検出器を評価するためのベンチマークデータセットの設計に多くの努力が注がれている。
本研究では,まず,幻覚検出ベンチマーク(HDB)の特性のデシラタを構築し,有効評価を行う。
我々のデシラタのレンズを通して既存のHDBを批判的に見ると、どれもすべての特性を示していないことが分かる。
従来のベンチマークでは,人間や自動弱アノテーションによるラベルノイズが頻繁に発生するが,既存のベンチマークではストレステスト検出器では現実的なラベルノイズが得られない。
これらのギャップを埋めるために、我々は、厳格な人間のアノテーションプロセスを実行したT RIVIA+と呼ばれる新しいRAGベースのHDBを構築し、オープンソース化した。
特に,本ベンチマークでは,(1)T RIVIA+は文献中で最長コンテキストのサンプルを含み,(2)サンプル依存・サンプル非依存の4種類のノイズラベルを設計・共有している。
最後に、私たちのT RIVIA+を含むRAGベースのHDBに関する実験を行い、一般的なSOTA検出器を使って新しい知見を明らかにします。
(i)現在の検出器がRAGベースのHDBの性能天井に達するには十分なスペースが残っている。
二 LLM-as-a-Judgeベースラインの競争力、及び
三) ラベルノイズは検出性能を阻害する。
我々は,提案したベンチマーク1とともに,RAGベースのタスクに対する幻覚検出に必要な研究を動機づけ,促進することを期待している。
関連論文リスト
- Scalable Token-Level Hallucination Detection in Large Language Models [63.3426544914783]
内部幻覚は推論集約的なタスクでは検出が難しい。
TokenHDはトークンレベルの幻覚検出器を訓練するための全体論的パイプラインである。
論文 参考訳(メタデータ) (2026-05-12T16:47:40Z) - Toward Faithful Retrieval-Augmented Generation with Sparse Autoencoders [39.5490415037017]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)の事実性を改善する。
既存のRAGの幻覚検出法は、しばしば大規模な検出器の訓練に頼っている。
RAGLensは、RAG出力を正確にフラグする軽量幻覚検出器である。
論文 参考訳(メタデータ) (2025-12-09T18:33:22Z) - Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [60.83579255387347]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z) - HalluCounter: Reference-free LLM Hallucination Detection in the Wild! [6.5037356041929675]
HalluCounterは、応答応答とクエリ応答の整合性とアライメントパターンの両方を利用する参照なし幻覚検出手法である。
我々の手法は最先端の手法よりもかなり優れており、データセット間での幻覚検出における平均信頼度は90%を超えている。
論文 参考訳(メタデータ) (2025-03-06T16:59:18Z) - Retrieval-Augmented Audio Deepfake Detection [27.13059118273849]
そこで本研究では,類似のサンプルを用いて検体を増強する検索拡張検出フレームワークを提案する。
提案したRADフレームワークのベースライン法よりも優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-22T05:46:40Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z) - WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection [75.80075054706079]
弱機能および半教師付きオブジェクト検出フレームワーク(WSSOD)を提案する。
エージェント検出器は、まず関節データセット上でトレーニングされ、弱注釈画像上で擬似境界ボックスを予測するために使用される。
提案フレームワークはPASCAL-VOC と MSCOCO のベンチマークで顕著な性能を示し,完全教師付き環境で得られたものと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-05-21T11:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。