論文の概要: Real-Time Detection of Hallucinated Entities in Long-Form Generation
- arxiv url: http://arxiv.org/abs/2509.03531v1
- Date: Tue, 26 Aug 2025 01:51:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:09.900939
- Title: Real-Time Detection of Hallucinated Entities in Long-Form Generation
- Title(参考訳): 長期発生におけるハロゲン化物質のリアルタイム検出
- Authors: Oscar Obeso, Andy Arditi, Javier Ferrando, Joshua Freeman, Cameron Holmes, Neel Nanda,
- Abstract要約: 長文世代における幻覚トークンのリアルタイム識別のための,安価でスケーラブルな手法を提案する。
我々のアプローチは、クレームレベルではなく、空想レベルの幻覚(例えば、製造された名前、日付、引用など)をターゲットにしています。
- 参考スコア(独自算出の注目度): 11.86547204398481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are now routinely used in high-stakes applications where hallucinations can cause serious harm, such as medical consultations or legal advice. Existing hallucination detection methods, however, are impractical for real-world use, as they are either limited to short factual queries or require costly external verification. We present a cheap, scalable method for real-time identification of hallucinated tokens in long-form generations, and scale it effectively to 70B parameter models. Our approach targets \emph{entity-level hallucinations} -- e.g., fabricated names, dates, citations -- rather than claim-level, thereby naturally mapping to token-level labels and enabling streaming detection. We develop an annotation methodology that leverages web search to annotate model responses with grounded labels indicating which tokens correspond to fabricated entities. This dataset enables us to train effective hallucination classifiers with simple and efficient methods such as linear probes. Evaluating across four model families, our classifiers consistently outperform baselines on long-form responses, including more expensive methods such as semantic entropy (e.g., AUC 0.90 vs 0.71 for Llama-3.3-70B), and are also an improvement in short-form question-answering settings. Moreover, despite being trained only with entity-level labels, our probes effectively detect incorrect answers in mathematical reasoning tasks, indicating generalization beyond entities. While our annotation methodology is expensive, we find that annotated responses from one model can be used to train effective classifiers on other models; accordingly, we publicly release our datasets to facilitate reuse. Overall, our work suggests a promising new approach for scalable, real-world hallucination detection.
- Abstract(参考訳): 大規模な言語モデルは、医学的な相談や法的な助言など、幻覚が深刻な害を引き起こすような、高レベルなアプリケーションで日常的に使用されている。
しかし、既存の幻覚検出法は、短い事実クエリに制限されるか、高価な外部検証を必要とするため、現実の用途では実用的ではない。
本稿では,長期化世代における幻覚トークンをリアルタイムに識別する,安価でスケーラブルな手法を提案し,それを70Bパラメータモデルに効果的に拡張する。
当社のアプローチは,クレームレベルではなく,‘emph{entity-level Hallucinations} -- 例えば,製造名,日付,引用 -- をターゲットとすることで,トークンレベルのラベルに自然にマッピングし,ストリーミング検出を可能にする。
我々は,Web検索を利用したアノテーション手法を開発し,どのトークンが生成されたエンティティに対応するかを示す接地ラベルでモデル応答をアノテートする。
このデータセットにより、線形プローブのような単純で効率的な手法で効果的な幻覚分類器を訓練することができる。
4つのモデルファミリで評価すると、セマンティックエントロピー(例えば、Llama-3.3-70BのAUC 0.90対0.71)のようなより高価な手法を含む、長文応答のベースラインを一貫して上回ります。
さらに,提案手法は,実体レベルラベルのみを用いて訓練されているにもかかわらず,数学的推論タスクにおける誤った回答を効果的に検出し,実体を超えた一般化を示唆する。
我々のアノテーション手法は高価だが、あるモデルからの注釈付き応答は、他のモデルで効果的な分類器を訓練するのに利用できる。
全体として、我々の研究はスケーラブルで現実世界の幻覚検出のための有望な新しいアプローチを示唆している。
関連論文リスト
- Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - CutPaste&Find: Efficient Multimodal Hallucination Detector with Visual-aid Knowledge Base [29.477973983931083]
LVLM出力の幻覚を検出する軽量でトレーニング不要なフレームワークであるCutPaste&Findを提案する。
私たちのフレームワークの中核は、リッチなエンティティ属性関係と関連するイメージ表現をエンコードするビジュアルエイドの知識ベースです。
類似度スコアを改良するスケーリング係数を導入し, 地中画像とテキストのペアであっても, 最適下アライメントの問題を緩和する。
論文 参考訳(メタデータ) (2025-02-18T07:06:36Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Trapping LLM Hallucinations Using Tagged Context Prompts [11.655802601887197]
本稿では,大規模言語モデルがドメイン知識の外部で実行された場合に,インスタンスを認識・フラグする新しい手法を提案する。
組込みタグと組み合わされたコンテキストを用いることで,生成言語モデル内の幻覚に対処できることが判明した。
論文 参考訳(メタデータ) (2023-06-09T17:48:54Z) - A Token-level Reference-free Hallucination Detection Benchmark for
Free-form Text Generation [50.55448707570669]
本稿ではトークンレベルの参照なし幻覚検出タスクとHaDesというアノテーション付きデータセットを提案する。
このデータセットを作成するために、まず英語のウィキペディアから抽出された大量のテキストセグメントを摂り込み、それからクラウドソースアノテーションで検証する。
論文 参考訳(メタデータ) (2021-04-18T04:09:48Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。