論文の概要: Unsupervised Hallucination Detection by Inspecting Reasoning Processes
- arxiv url: http://arxiv.org/abs/2509.10004v1
- Date: Fri, 12 Sep 2025 06:58:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.995924
- Title: Unsupervised Hallucination Detection by Inspecting Reasoning Processes
- Title(参考訳): 推論過程の検査による教師なし幻覚検出
- Authors: Ponhvoan Srey, Xiaobao Wu, Anh Tuan Luu,
- Abstract要約: 非教師付き幻覚検出は、ラベル付きデータに頼ることなく、大規模言語モデル(LLM)が生成する幻覚コンテンツを特定することを目的としている。
本稿では,非教師なし幻覚検出フレームワークIRISを提案する。
我々の手法は完全に教師なし、計算コストが低く、訓練データが少ない場合でもうまく機能し、リアルタイム検出に適しています。
- 参考スコア(独自算出の注目度): 53.15199932086543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised hallucination detection aims to identify hallucinated content generated by large language models (LLMs) without relying on labeled data. While unsupervised methods have gained popularity by eliminating labor-intensive human annotations, they frequently rely on proxy signals unrelated to factual correctness. This misalignment biases detection probes toward superficial or non-truth-related aspects, limiting generalizability across datasets and scenarios. To overcome these limitations, we propose IRIS, an unsupervised hallucination detection framework, leveraging internal representations intrinsic to factual correctness. IRIS prompts the LLM to carefully verify the truthfulness of a given statement, and obtain its contextualized embedding as informative features for training. Meanwhile, the uncertainty of each response is considered a soft pseudolabel for truthfulness. Experimental results demonstrate that IRIS consistently outperforms existing unsupervised methods. Our approach is fully unsupervised, computationally low cost, and works well even with few training data, making it suitable for real-time detection.
- Abstract(参考訳): 非教師付き幻覚検出は、ラベル付きデータに頼ることなく、大規模言語モデル(LLM)が生成する幻覚コンテンツを特定することを目的としている。
非教師なしの手法は、労働集約的な人間のアノテーションをなくすことで人気を得ているが、それらは事実の正しさとは無関係なプロキシ信号に依存していることが多い。
このミスアライメントは、表面的または非真実的側面に対する検出プローブをバイアスし、データセットやシナリオ間の一般化性を制限する。
これらの制約を克服するために、本研究では、内的表現を事実的正当性に生かした教師なし幻覚検出フレームワークIRISを提案する。
IRIS は LLM に対して、与えられた文の真偽を慎重に検証するよう促し、その文脈化された埋め込みを訓練のための情報的特徴として得る。
一方、各応答の不確実性は、真偽に対するソフトな擬似ラベルと見なされる。
実験の結果、IRISは既存の教師なし手法よりも一貫して優れていた。
我々の手法は完全に教師なし、計算コストが低く、訓練データが少ない場合でもうまく機能し、リアルタイム検出に適しています。
関連論文リスト
- Counterfactual Probing for Hallucination Detection and Mitigation in Large Language Models [0.0]
本研究では,大規模言語モデルにおける幻覚の検出と緩和のための新しいアプローチである,対物探索を提案する。
提案手法は, 疑わしいが微妙な事実誤りを含む反事実文を動的に生成し, これらの摂動に対するモデルの感度を評価する。
論文 参考訳(メタデータ) (2025-08-03T17:29:48Z) - When Truthful Representations Flip Under Deceptive Instructions? [24.004146630216685]
大規模言語モデル(LLM)は、偽りの応答を生成するために悪意のある命令に従う傾向がある。
知覚的命令は、真理に富んだ命令と比較してLLMの内部表現を変化させる。
我々の分析は、指示された不当さの階層的および特徴レベルの相関をピンポイントで示す。
論文 参考訳(メタデータ) (2025-07-29T18:27:13Z) - Semantic Volume: Quantifying and Detecting both External and Internal Uncertainty in LLMs [13.982395477368396]
大規模言語モデル (LLM) は、膨大な事実知識を符号化することで、様々なタスクにまたがる顕著な性能を示した。
彼らはまだ幻覚を起こす傾向があり、誤った情報や誤解を招く情報を生み出し、しばしば高い不確実性を伴う。
LLMにおける外部不確実性と内部不確実性の両方を定量化する新しい尺度であるSemantic Volumeを紹介する。
論文 参考訳(メタデータ) (2025-02-28T17:09:08Z) - Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification [116.77055746066375]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - Delphic Offline Reinforcement Learning under Nonidentifiable Hidden
Confounding [10.315867984674032]
偏見的不確実性と呼ばれる隠れ共起バイアスによる不確実性の定義を提案する。
提案手法は,3種類の不確かさを推定し,それらを考慮した悲観的なオフラインRLアルゴリズムを構築するための実用的手法である。
この結果から,非同定不能な隠れ共起バイアスを緩和して,オフラインRLソリューションを実際に改善できることが示唆された。
論文 参考訳(メタデータ) (2023-06-01T21:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。