論文の概要: (Im)possibility of Automated Hallucination Detection in Large Language Models
- arxiv url: http://arxiv.org/abs/2504.17004v1
- Date: Wed, 23 Apr 2025 18:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 15:25:30.204126
- Title: (Im)possibility of Automated Hallucination Detection in Large Language Models
- Title(参考訳): (Im)大規模言語モデルにおける幻覚自動検出の可能性
- Authors: Amin Karbasi, Omar Montasser, John Sous, Grigoris Velegkas,
- Abstract要約: 大規模言語モデル(LLM)が生成する幻覚を自動的に検出する可能性を分析するための理論的枠組みを提案する。
未知のターゲット言語から抽出された例に基づいて訓練されたアルゴリズムが、LLMの出力が正しいか、幻覚を構成するかを確実に判断できるかどうかを検討する。
我々は、専門家ラベル付きフィードバックの使用、すなわち、正の例(誤記)と負の例(誤記)の両方で検出器を訓練することで、この結論を劇的に変えることを示した。
- 参考スコア(独自算出の注目度): 40.13262095901877
- License:
- Abstract: Is automated hallucination detection possible? In this work, we introduce a theoretical framework to analyze the feasibility of automatically detecting hallucinations produced by large language models (LLMs). Inspired by the classical Gold-Angluin framework for language identification and its recent adaptation to language generation by Kleinberg and Mullainathan, we investigate whether an algorithm, trained on examples drawn from an unknown target language $K$ (selected from a countable collection) and given access to an LLM, can reliably determine whether the LLM's outputs are correct or constitute hallucinations. First, we establish an equivalence between hallucination detection and the classical task of language identification. We prove that any hallucination detection method can be converted into a language identification method, and conversely, algorithms solving language identification can be adapted for hallucination detection. Given the inherent difficulty of language identification, this implies that hallucination detection is fundamentally impossible for most language collections if the detector is trained using only correct examples from the target language. Second, we show that the use of expert-labeled feedback, i.e., training the detector with both positive examples (correct statements) and negative examples (explicitly labeled incorrect statements), dramatically changes this conclusion. Under this enriched training regime, automated hallucination detection becomes possible for all countable language collections. These results highlight the essential role of expert-labeled examples in training hallucination detectors and provide theoretical support for feedback-based methods, such as reinforcement learning with human feedback (RLHF), which have proven critical for reliable LLM deployment.
- Abstract(参考訳): 幻覚自動検出は可能か?
本研究では,大規模言語モデル(LLM)が生成する幻覚を自動的に検出する可能性を分析するための理論的枠組みを提案する。
Kleinberg と Mullainathan による言語識別のための古典的な Gold-Angluin フレームワークおよび言語生成への最近の適応に着想を得て,未知のターゲット言語から抽出された例に基づいて訓練されたアルゴリズムが,LLM へのアクセスを許可し,LLM の出力が正しいか幻覚であるかを確実に判断できるかどうかを調べた。
まず,幻覚検出と言語識別の古典的課題の等価性を確立する。
本研究では,どの幻覚検出法も言語識別法に変換できることを証明し,それに対して,言語識別を解くアルゴリズムを幻覚検出に適用できることを示す。
言語識別の難しさを考えると、対象言語からの正しい例のみを用いて検出者が訓練された場合、ほとんどの言語コレクションでは幻覚検出は基本的に不可能である。
第2に、専門家ラベルによるフィードバックの使用、すなわち、正の例(誤記)と負の例(誤記)の両方で検出器を訓練することで、この結論を劇的に変えることを示す。
この豊富な訓練体制の下では、すべての可算言語コレクションに対して自動幻覚検出が可能となる。
これらの結果は,LLM導入に不可欠な強化学習(RLHF)のような,フィードバックに基づく手法の理論的サポートを提供する。
関連論文リスト
- ETF: An Entity Tracing Framework for Hallucination Detection in Code Summaries [29.561699707926056]
大型言語モデル(LLM)は、意図した意味から逸脱する幻覚出力の傾向にある。
コード要約における幻覚検出に特化してキュレートされた$sim$10Kのサンプルを用いたファースト・オブ・ザ・キンドデータセットを提案する。
論文 参考訳(メタデータ) (2024-10-17T19:38:55Z) - Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps [48.58310785625051]
大型言語モデル(LLM)は詳細を幻覚し、根拠のない回答で応答することができる。
本稿では,このような文脈的幻覚を検出するための簡単なアプローチについて述べる。
論文 参考訳(メタデータ) (2024-07-09T17:44:34Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [40.930238150365795]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Comparing Hallucination Detection Metrics for Multilingual Generation [62.97224994631494]
本稿では,各言語にまたがって生成した伝記要約における幻覚を,様々な事実の幻覚検出指標がいかによく識別するかを評価する。
自動測度が相互にどのように相関するか, 事実判断に一致しているかを比較検討した。
我々の分析によると、語彙指標は非効率であるが、NLIベースのメトリクスはよく機能し、多くの設定における人間のアノテーションと相関し、しばしば教師付きモデルよりも優れている。
論文 参考訳(メタデータ) (2024-02-16T08:10:34Z) - Hallucinations in Neural Automatic Speech Recognition: Identifying
Errors and Hallucinatory Models [11.492702369437785]
幻覚は、ソースの発声とは意味的に無関係であるが、それでも流動的でコヒーレントである。
単語誤り率などの一般的なメトリクスは、幻覚モデルと非幻覚モデルとを区別できないことを示す。
本研究は,幻覚を識別する枠組みを考案し,その意味的関係と基礎的真理と流布との関係を解析する。
論文 参考訳(メタデータ) (2024-01-03T06:56:56Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - Chain of Natural Language Inference for Reducing Large Language Model
Ungrounded Hallucinations [3.9566468090516067]
大規模言語モデル(LLM)は、関連する文書を背景コンテキストとして与えたときに、流動的な自然言語テキストを生成することができる。
LLMは、提供されたソースがサポートしていない幻覚を生成する傾向がある。
そこで我々は,そのような未解決幻覚を検知・緩和するための階層的枠組みを提案する。
論文 参考訳(メタデータ) (2023-10-06T00:10:46Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Zero-Resource Hallucination Prevention for Large Language Models [45.4155729393135]
ハロシン化(Hallucination)とは、大規模言語モデル(LLM)が事実的に不正確な情報を生成する事例を指す。
本稿では,SELF-FAMILIARITYと呼ばれる,入力命令に含まれる概念に対するモデルの親しみ度を評価する新しい自己評価手法を提案する。
4つの異なる大言語モデルでSELF-FAMILIARITYを検証し、既存の手法と比較して一貫して優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-06T01:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。