論文の概要: Beyond ROUGE: N-Gram Subspace Features for LLM Hallucination Detection
- arxiv url: http://arxiv.org/abs/2509.05360v1
- Date: Wed, 03 Sep 2025 18:52:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.459071
- Title: Beyond ROUGE: N-Gram Subspace Features for LLM Hallucination Detection
- Title(参考訳): ROUGEを超える: LLM幻覚検出のためのN-Gram部分空間特徴
- Authors: Jerry Li, Evangelos Papalexakis,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語を含む様々なタスクにおいて有効性を示す。
幻覚の根本的な問題は依然としてこれらのモデルに悩まされており、一貫性のある真正な情報を生成する際の信頼性を制限している。
LLM生成テキストからN-Gram周波数テンソルを構成するROUGEにインスパイアされた新しい手法を提案する。
このテンソルは共起パターンを符号化することでよりリッチな意味構造を捉え、事実と幻覚的コンテンツをよりよく区別することができる。
- 参考スコア(独自算出の注目度): 5.0106565473767075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated effectiveness across a wide variety of tasks involving natural language, however, a fundamental problem of hallucinations still plagues these models, limiting their trustworthiness in generating consistent, truthful information. Detecting hallucinations has quickly become an important topic, with various methods such as uncertainty estimation, LLM Judges, retrieval augmented generation (RAG), and consistency checks showing promise. Many of these methods build upon foundational metrics, such as ROUGE, BERTScore, or Perplexity, which often lack the semantic depth necessary to detect hallucinations effectively. In this work, we propose a novel approach inspired by ROUGE that constructs an N-Gram frequency tensor from LLM-generated text. This tensor captures richer semantic structure by encoding co-occurrence patterns, enabling better differentiation between factual and hallucinated content. We demonstrate this by applying tensor decomposition methods to extract singular values from each mode and use these as input features to train a multi-layer perceptron (MLP) binary classifier for hallucinations. Our method is evaluated on the HaluEval dataset and demonstrates significant improvements over traditional baselines, as well as competitive performance against state-of-the-art LLM judges.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語を含む様々なタスクにおいて有効性を示しているが、幻覚の根本的な問題はこれらのモデルに悩まされ、一貫性のある真正な情報を生成する際の信頼性を制限している。
幻覚の検出は、不確実性推定、LCM判断、検索拡張生成(RAG)、約束を示す一貫性チェックなどの様々な手法によって、急速に重要になっている。
これらの手法の多くはROUGE、BERTScore、Perplexityといった基礎的な指標に基づいて構築されており、幻覚を効果的に検出するために必要な意味的な深さを欠いていることが多い。
本研究では,LLM生成テキストからN-Gram周波数テンソルを構成するROUGEにインスパイアされた新しい手法を提案する。
このテンソルは共起パターンを符号化することでよりリッチな意味構造を捉え、事実と幻覚的コンテンツをよりよく区別することができる。
本研究では,各モードから特異値を抽出するためにテンソル分解法を適用し,これを入力特徴として用いて,幻覚のための多層パーセプトロン(MLP)バイナリ分類器を訓練する。
提案手法はHaluEvalデータセットに基づいて評価され,従来のベースラインよりも大幅に改善されている。
関連論文リスト
- MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - Robust Hallucination Detection in LLMs via Adaptive Token Selection [25.21763722332831]
大きな言語モデル(LLM)の幻覚は、より広範なデプロイメントを妨げる重要な安全性上の懸念を引き起こす。
本研究では,適応的選択とクリティカルトークンの学習を通じて,幻覚の堅牢な検出を可能にする新しいアプローチであるHaMIを提案する。
本研究では,ハロシン化検出タスクの革新的な定式化により,このロバスト性を実現する。
論文 参考訳(メタデータ) (2025-04-10T15:39:10Z) - REFIND at SemEval-2025 Task 3: Retrieval-Augmented Factuality Hallucination Detection in Large Language Models [15.380441563675243]
REFIND(Retrieval-augmented Factuality Hallucination Detection)は、大規模言語モデル(LLM)出力内の幻覚スパンを検出する新しいフレームワークである。
本研究では,LLM出力の感度を定量的に評価する新しい指標であるコンテキスト感度比(CSR)を提案する。
REFINDは低リソース設定を含む9つの言語で堅牢性を示し、ベースラインモデルではかなり優れていた。
論文 参考訳(メタデータ) (2025-02-19T10:59:05Z) - CutPaste&Find: Efficient Multimodal Hallucination Detector with Visual-aid Knowledge Base [29.477973983931083]
LVLM出力の幻覚を検出する軽量でトレーニング不要なフレームワークであるCutPaste&Findを提案する。
私たちのフレームワークの中核は、リッチなエンティティ属性関係と関連するイメージ表現をエンコードするビジュアルエイドの知識ベースです。
類似度スコアを改良するスケーリング係数を導入し, 地中画像とテキストのペアであっても, 最適下アライメントの問題を緩和する。
論文 参考訳(メタデータ) (2025-02-18T07:06:36Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。