論文の概要: Hallucination Detection with the Internal Layers of LLMs
- arxiv url: http://arxiv.org/abs/2509.14254v1
- Date: Thu, 11 Sep 2025 09:50:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.880286
- Title: Hallucination Detection with the Internal Layers of LLMs
- Title(参考訳): LLMの内部層による幻覚検出
- Authors: Martin Preiß,
- Abstract要約: 大型言語モデル (LLM) は幻覚を発生させ、現実の重大な結果をもたらす。
近年の研究では、LLMの内部表現を利用した探索に基づく分類器が幻覚を検出することが示されている。
この論文は、LLMの内部表現を用いた幻覚検出の新しい手法を提案した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have succeeded in a variety of natural language processing tasks [Zha+25]. However, they have notable limitations. LLMs tend to generate hallucinations, a seemingly plausible yet factually unsupported output [Hua+24], which have serious real-world consequences [Kay23; Rum+24]. Recent work has shown that probing-based classifiers that utilize LLMs' internal representations can detect hallucinations [AM23; Bei+24; Bur+24; DYT24; Ji+24; SMZ24; Su+24]. This approach, since it does not involve model training, can enhance reliability without significantly increasing computational costs. Building upon this approach, this thesis proposed novel methods for hallucination detection using LLM internal representations and evaluated them across three benchmarks: TruthfulQA, HaluEval, and ReFact. Specifically, a new architecture that dynamically weights and combines internal LLM layers was developed to improve hallucination detection performance. Throughout extensive experiments, two key findings were obtained: First, the proposed approach was shown to achieve superior performance compared to traditional probing methods, though generalization across benchmarks and LLMs remains challenging. Second, these generalization limitations were demonstrated to be mitigated through cross-benchmark training and parameter freezing. While not consistently improving, both techniques yielded better performance on individual benchmarks and reduced performance degradation when transferred to other benchmarks. These findings open new avenues for improving LLM reliability through internal representation analysis.
- Abstract(参考訳): 大規模言語モデル (LLM) は様々な自然言語処理タスク [Zha+25] に成功している。
しかし、それらには顕著な制限がある。
LLMは幻覚(Hua+24)を発生させる傾向があり、これは現実に深刻な結果をもたらす[Kay23, Rum+24]。
近年の研究では、LLMの内部表現を利用するプローブベースの分類器が幻覚(AM23; Bei+24; Bur+24; DYT24; Ji+24; SMZ24; Su+24]を検出することが示されている。
このアプローチはモデルトレーニングを伴わないため、計算コストを大幅に増大させることなく信頼性を高めることができる。
本論文は, LLM内部表現を用いた幻覚検出の新しい手法を提案し, TruthfulQA, HaluEval, ReFactの3つのベンチマークで評価した。
具体的には、幻覚検出性能を向上させるために、内部LCM層を動的に重み付け、結合する新しいアーキテクチャを開発した。
まず,提案手法は従来の探索手法よりも優れた性能を示すことが示されているが,ベンチマークやLSMの一般化は依然として困難である。
第2に、これらの一般化制限は、クロスベンチマークトレーニングとパラメータ凍結によって緩和されることを示した。
一貫して改善はされなかったが、どちらの手法も個々のベンチマークのパフォーマンスが向上し、他のベンチマークに移行すると性能が低下した。
これらの知見は、内部表現解析によりLCMの信頼性を向上させるための新たな道を開く。
関連論文リスト
- HuDEx: Integrating Hallucination Detection and Explainability for Enhancing the Reliability of LLM responses [0.12499537119440242]
本稿では,HuDExと命名された幻覚検出モデルについて説明する。
提案モデルでは,検出を説明と統合する新たなアプローチを提供し,ユーザとLLM自体がエラーを理解し,低減することができる。
論文 参考訳(メタデータ) (2025-02-12T04:17:02Z) - Forget What You Know about LLMs Evaluations -- LLMs are Like a Chameleon [12.13060272830352]
大規模言語モデル(LLM)は、しばしば公開ベンチマークで優れているように見える。
これらの高いスコアは、真の言語理解よりもデータセット固有のサーフェスキューへの過度な依存を隠蔽する可能性がある。
本稿では,ベンチマークプロンプトを歪ませるメタ評価フレームワークであるChameleon Benchmark Overfit Detector (C-BOD)を紹介する。
論文 参考訳(メタデータ) (2025-02-11T10:43:36Z) - OnionEval: An Unified Evaluation of Fact-conflicting Hallucination for Small-Large Language Models [6.727694415099734]
OnionEvalは、異なる文脈レベルにわたる小さなLLMの事実にかかわる幻覚傾向を評価するように設計されている。
その結果,SLLM の重要な特徴は,事実分析に優れ,文脈推論による課題に直面していることがわかった。
さらなる調査は、単純なChain-of-Thought戦略がこれらの制限を大幅に削減できることを示している。
論文 参考訳(メタデータ) (2025-01-22T15:59:44Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics [51.17512229589]
PoLLMgraphは、大規模言語モデルのためのモデルベースのホワイトボックス検出および予測手法である。
LLMの内部状態遷移ダイナミクスを解析することにより,幻覚を効果的に検出できることを示す。
我々の研究は、LLMのモデルベースのホワイトボックス分析の新しい手法を開拓し、LLMの振る舞いの複雑なダイナミクスをさらに探求し、理解し、洗練する研究コミュニティを動機付けている。
論文 参考訳(メタデータ) (2024-04-06T20:02:20Z) - Fine-Grained Self-Endorsement Improves Factuality and Reasoning [72.83651220132495]
本研究は, 大規模言語モデル (LLM) 世代を推定時に改善するために, ファクト・コンプレッション・幻覚を緩和する。
本稿では,複数のサンプル応答におけるファクトレベルの詳細な比較を生かした自己組織化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-23T22:24:40Z) - Improving Factual Consistency of News Summarization by Contrastive Preference Optimization [65.11227166319546]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
本稿では,LLMの適合性を解消し,忠実で偽のコンテンツを生成するコントラスト優先最適化(CPO)を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - Chainpoll: A high efficacy method for LLM hallucination detection [0.0]
そこで我々はChainPollという幻覚検出手法を紹介した。
我々はまた、最近の研究から幻覚検出指標を評価するためのベンチマークデータセットの洗練されたコレクションであるRealHallも公開した。
論文 参考訳(メタデータ) (2023-10-22T14:45:14Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。