論文の概要: Principled Detection of Hallucinations in Large Language Models via Multiple Testing
- arxiv url: http://arxiv.org/abs/2508.18473v2
- Date: Wed, 27 Aug 2025 14:55:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 12:43:57.500508
- Title: Principled Detection of Hallucinations in Large Language Models via Multiple Testing
- Title(参考訳): 複数検定による大規模言語モデルにおける幻覚の原理的検出
- Authors: Jiawei Li, Akshayaa Magesh, Venugopal V. Veeravalli,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクを解決するための強力な基礎モデルとして登場した。
また、幻覚を起こしやすいことも示され、自信を持って聞こえるが、実際には正しくない、あるいは非感覚的な反応を生じさせる。
本稿では,仮説テスト問題として幻覚を検出する問題を定式化し,機械学習モデルにおける分布外検出問題に並列性を持たせる。
- 参考スコア(独自算出の注目度): 23.071156657633498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) have emerged as powerful foundational models to solve a variety of tasks, they have also been shown to be prone to hallucinations, i.e., generating responses that sound confident but are actually incorrect or even nonsensical. In this work, we formulate the problem of detecting hallucinations as a hypothesis testing problem and draw parallels to the problem of out-of-distribution detection in machine learning models. We propose a multiple-testing-inspired method to solve the hallucination detection problem, and provide extensive experimental results to validate the robustness of our approach against state-of-the-art methods.
- Abstract(参考訳): LLM(Large Language Models)は、様々な課題を解決するための強力な基礎モデルとして登場したが、幻覚を起こす傾向があることも示されている。
本研究では,仮説テスト問題として幻覚を検出する問題を定式化し,機械学習モデルにおける分布外検出問題に並列性を持たせる。
本稿では,幻覚検出問題の解法としてマルチテストに着想を得た手法を提案する。
関連論文リスト
- Counterfactual Probing for Hallucination Detection and Mitigation in Large Language Models [0.0]
本研究では,大規模言語モデルにおける幻覚の検出と緩和のための新しいアプローチである,対物探索を提案する。
提案手法は, 疑わしいが微妙な事実誤りを含む反事実文を動的に生成し, これらの摂動に対するモデルの感度を評価する。
論文 参考訳(メタデータ) (2025-08-03T17:29:48Z) - MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - keepitsimple at SemEval-2025 Task 3: LLM-Uncertainty based Approach for Multilingual Hallucination Span Detection [0.0]
ブラックボックス言語モデル生成テキストにおける幻覚の特定は、現実世界の応用に不可欠である。
本問題の解法は, 幻覚的スパンを特定するために, 実測的な応答のばらつきを生かしたものである。
エントロピーに基づく解析により,このばらつきを計測し,幻覚部分の正確な同定を可能にする。
論文 参考訳(メタデータ) (2025-05-23T05:25:14Z) - Learning Auxiliary Tasks Improves Reference-Free Hallucination Detection in Open-Domain Long-Form Generation [78.78421340836915]
オープンドメイン長文応答における参照なし幻覚検出を系統的に検討する。
その結果,内的状態は事実と幻覚的内容とを確実に区別するには不十分であることが判明した。
RATE-FTと呼ばれる新しいパラダイムを導入し、モデルが幻覚検出のメインタスクと共同で学習するための補助的なタスクで微調整を強化する。
論文 参考訳(メタデータ) (2025-05-18T07:10:03Z) - Unified Hallucination Detection for Multimodal Large Language Models [44.333451078750954]
マルチモーダル大言語モデル(MLLM)は幻覚の重要な問題に悩まされている。
本稿では,幻覚検出手法の進歩を評価するために,メタ評価ベンチマークであるMHaluBenchを提案する。
我々は,幻覚の発生を確実に検証するために,一連の補助ツールを活用する,新しい統合型マルチモーダル幻覚検出フレームワークUNIHDを公表した。
論文 参考訳(メタデータ) (2024-02-05T16:56:11Z) - Towards Mitigating Hallucination in Large Language Models via
Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。
本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文 参考訳(メタデータ) (2023-10-10T03:05:44Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。