論文の概要: Scalable Token-Level Hallucination Detection in Large Language Models
- arxiv url: http://arxiv.org/abs/2605.12384v1
- Date: Tue, 12 May 2026 16:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:57.027878
- Title: Scalable Token-Level Hallucination Detection in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるスケーラブルなトークンレベル幻覚検出
- Authors: Rui Min, Tianyu Pang, Chao Du, Minhao Cheng, Yi R. Fung,
- Abstract要約: 内部幻覚は推論集約的なタスクでは検出が難しい。
TokenHDはトークンレベルの幻覚検出器を訓練するための全体論的パイプラインである。
- 参考スコア(独自算出の注目度): 63.3426544914783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities, but they still frequently produce hallucinations. These hallucinations are difficult to detect in reasoning-intensive tasks, where the content appears coherent but contains errors like logical flaws and unreliable intermediate results. While step-level analysis is commonly used to detect internal hallucinations, it suffers from limited granularity and poor scalability due to its reliance on step segmentation. To address these limitations, we propose TokenHD, a holistic pipeline for training token-level hallucination detectors. Specifically, TokenHD consists of a scalable data engine for synthesizing large-scale hallucination annotations along with a training recipe featuring an importance-weighted strategy for robust model training. To systematically assess the detection performance, we also provide a rigorous evaluation protocol. Through training within TokenHD, our detector operates directly on free-form text to identify hallucinations, eliminating the need for predefined step segmentation or additional text reformatting. Our experiments show that even a small detector (0.6B) achieves substantial performance gains after training, surpassing much larger reasoning models (e.g., QwQ-32B), and detection performance scales consistently with model size from 0.6B to 8B. Finally, we show that our detector can generalize well across diverse practical scenarios and explore strategies to further enhance its cross-domain generalization capability.
- Abstract(参考訳): 大型言語モデル(LLM)は目覚ましい能力を示しているが、幻覚をしばしば生み出す。
これらの幻覚は、内容が一貫したように見える推論集約的なタスクでは検出できないが、論理的欠陥や信頼できない中間結果のような誤りを含んでいる。
ステップレベルの分析は内部幻覚を検出するために一般的に使用されるが、ステップセグメンテーションに依存するため、粒度の制限とスケーラビリティの低下に悩まされている。
これらの制約に対処するため、トークンレベルの幻覚検出器をトレーニングするための全体的パイプラインであるTokenHDを提案する。
具体的には、大規模幻覚アノテーションを合成するためのスケーラブルなデータエンジンと、堅牢なモデルトレーニングのための重み付け戦略を備えたトレーニングレシピで構成される。
検出性能を体系的に評価するために,厳密な評価プロトコルも提供する。
TokenHD内でのトレーニングを通じて、私たちの検出器は、幻覚を識別する自由形式のテキストを直接操作し、事前に定義されたステップセグメンテーションや追加のテキスト再フォーマットの必要性を排除します。
実験の結果, 小型検出器 (0.6B) であっても, 訓練後, はるかに大きな推理モデル (例えばQwQ-32B) を上回り, モデルサイズ0.6Bから8Bと連続して精度が向上することがわかった。
最後に,我々の検出器は多様な実践シナリオにまたがって十分に一般化できることを示し,クロスドメインの一般化能力をさらに強化するための戦略を探求する。
関連論文リスト
- Detecting Hallucinations in SpeechLLMs at Inference Time Using Attention Maps [1.8825446478246406]
音声大言語モデル(SpeechLLMs)における幻覚は重大なリスクを伴うが、既存の検出方法は、コストがかかるか現実的でない金標準出力に依存している。
本研究は,幻覚に関連する病的注意パターンを捉えるために,AuDIORATIO,AUDIOCONSISTENCY,AUDIOENTROPY,TEXTENTROPYの4つの注意指標について検討した。
自動音声認識と音声からテキストへの翻訳作業は,不確実性に基づくベースラインや,それ以前のアテンションに基づくベースラインよりも優れていた。
論文 参考訳(メタデータ) (2026-04-21T15:18:10Z) - Detecting Hallucinations in Retrieval-Augmented Generation via Semantic-level Internal Reasoning Graph [12.233570103035312]
そこで本研究では,忠実な幻覚を検出するための意味レベルの内部推論グラフに基づく手法を提案する。
RAGTruth と Dolly-15k の最先端ベースラインと比較して総合的な性能が向上する。
論文 参考訳(メタデータ) (2026-01-06T14:35:20Z) - PruneHal: Reducing Hallucinations in Multi-modal Large Language Models through Adaptive KV Cache Pruning [87.35309934860938]
大型言語モデル(MLLM)における幻覚は、視覚トークンに割り当てられた注意不足と強く関連している。
我々は、適応的なKVキャッシュプルーニングを活用し、重要な視覚情報に焦点をあてるトレーニングフリーでシンプルで効果的な方法である textbfPruneHal を提案する。
論文 参考訳(メタデータ) (2025-10-22T02:41:07Z) - SHALE: A Scalable Benchmark for Fine-grained Hallucination Evaluation in LVLMs [52.03164192840023]
LVLM(Large Vision-Language Models)は、いまだ幻覚に悩まされている。
本稿では,スケーラブルで制御可能で多様な評価データを生成する自動データ構築パイプラインを提案する。
我々は,忠実度と事実性幻覚の両方を評価するためのベンチマークであるSHALEを構築した。
論文 参考訳(メタデータ) (2025-08-13T07:58:01Z) - Robust Hallucination Detection in LLMs via Adaptive Token Selection [35.06045656558144]
大きな言語モデル(LLM)の幻覚は、より広範なデプロイメントを妨げる重要な安全性上の懸念を引き起こす。
本研究では,適応的選択とクリティカルトークンの学習を通じて,幻覚の堅牢な検出を可能にする新しいアプローチであるHaMIを提案する。
本研究では,ハロシン化検出タスクの革新的な定式化により,このロバスト性を実現する。
論文 参考訳(メタデータ) (2025-04-10T15:39:10Z) - CHAIR -- Classifier of Hallucination as Improver [1.397828249435483]
トークンの各層からの内部ロジットを分析し,幻覚を検出するための教師付きフレームワークであるCHAIR(Classifier of Hallucination As ImproveR)を紹介する。
本手法は,すべての層にまたがるトークンロジットから,最大,最小,平均,標準偏差,傾斜といった,コンパクトな特徴セットを抽出し,過剰に収まることなく効果的な幻覚検出を可能にする。
論文 参考訳(メタデータ) (2025-01-05T12:15:02Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [40.930238150365795]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。