論文の概要: Small Updates, Big Doubts: Does Parameter-Efficient Fine-tuning Enhance Hallucination Detection ?
- arxiv url: http://arxiv.org/abs/2602.11166v1
- Date: Sat, 17 Jan 2026 21:39:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-15 14:54:53.71644
- Title: Small Updates, Big Doubts: Does Parameter-Efficient Fine-tuning Enhance Hallucination Detection ?
- Title(参考訳): 小さなアップデートとビッグダウト:パラメータ効率の良い微調整型幻覚検出は可能か?
- Authors: Xu Hu, Yifan Zhang, Songtao Wei, Chen Zhao, Qiannan Li, Bingzhe Li, Feng Chen,
- Abstract要約: 本研究では,PEFTが幻覚検出に及ぼす影響を包括的実証研究により系統的に検討した。
実験によりPEFTは幻覚検出能力を一貫して強化することが示された。
さらに解析した結果,PEFT法は,不確かさのエンコード化や表面化を主な要因としている。
- 参考スコア(独自算出の注目度): 17.099852012707476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) methods are widely used to adapt large language models (LLMs) to downstream tasks and are often assumed to improve factual correctness. However, how the parameter-efficient fine-tuning methods affect hallucination behavior remains insufficiently understood, especially on QA datasets. In this work, we systematically investigate the impact of PEFT on hallucination detection through a comprehensive empirical study across three open-weight LLM backbones and three fact-seeking QA benchmarks. For each model, we evaluate performance using seven unsupervised hallucination detection methods spanning three complementary approaches: semantic consistency based detectors, confidence based detectors, and entropy based detectors. This multifaceted evaluation enables us to characterize how PEFT reshapes uncertainty across different detection paradigms. In conclusion, our experimental results show that PEFT consistently strengthens hallucination detection ability, substantially improving AUROC across a wide range of hallucination detectors. Besides, further analyses using linear probes and representation diagnostics indicate that PEFT methods primarily reshapes how uncertainty is encoded and surfaced, comparing with injecting new factual knowledge into the models.
- Abstract(参考訳): パラメータ効率のよい微調整法(PEFT)は、大規模言語モデル(LLM)を下流のタスクに適用するために広く使われており、事実の正確性を改善すると仮定されることが多い。
しかし、パラメータ効率のよい微調整法が幻覚行動にどのように影響するかは、特にQAデータセットでは未解明のままである。
本研究では,PEFTが幻覚検出に与える影響を,オープンウェイトLLMバックボーン3つとファクトサーキングQAベンチマーク3つにわたる総合的研究を通じて系統的に検討した。
各モデルについて,セマンティック一貫性に基づく検出法,信頼に基づく検出法,エントロピーに基づく検出法という3つの相補的アプローチにまたがる7つの教師なし幻覚検出手法による性能評価を行った。
この多面的評価により、PEFTが異なる検出パラダイム間で不確実性をどう評価するかを特徴付けることができる。
その結果,PEFTは幻覚検出能力を一貫して強化し,広範囲の幻覚検出装置でAUROCを大幅に改善した。
さらに、線形プローブと表現診断を用いたさらなる分析は、PEFT法がモデルに新たな事実知識を注入するのと比較して、不確実性がどのように符号化され表面化されているかを主に再認識していることを示している。
関連論文リスト
- From Out-of-Distribution Detection to Hallucination Detection: A Geometric View [11.026648707364402]
本研究は,アウト・オブ・ディストリビューション(OOD)検出レンズによる幻覚検出を再考する。
言語モデルにおける次トーケン予測を分類タスクとして扱うことにより,OOD手法の適用が可能となる。
OODをベースとしたアプローチはトレーニング不要で単一サンプルベースの検出器となり、推論タスクの幻覚検出において高い精度が得られることを示す。
論文 参考訳(メタデータ) (2026-02-06T23:05:48Z) - Hallucination Detection and Evaluation of Large Language Model [0.26856688022781555]
LLM(Large Language Models)における幻覚は、誤解を招くか、検証不能なコンテンツを生成するという大きな課題を引き起こす。
KnowHaluのような既存の評価手法では、マルチステージ検証を採用しているが、高い計算コストに悩まされている。
これを解決するために,Hughes Hallucination Evaluation Model (HHEM) を統合した。
論文 参考訳(メタデータ) (2025-12-27T00:17:03Z) - A Novel Differential Feature Learning for Effective Hallucination Detection and Classification [3.9060143123877844]
本稿では,適応的な層間特徴重み付けと差分特徴学習機構に,Projected Fusionブロックを統合したデュアルモデルアーキテクチャを提案する。
幻覚信号が高度にスパースな特徴部分集合に集中していることを示し,質問応答や対話タスクの精度を大幅に向上させることを実証した。
論文 参考訳(メタデータ) (2025-09-20T06:48:22Z) - Counterfactual Probing for Hallucination Detection and Mitigation in Large Language Models [0.0]
本研究では,大規模言語モデルにおける幻覚の検出と緩和のための新しいアプローチである,対物探索を提案する。
提案手法は, 疑わしいが微妙な事実誤りを含む反事実文を動的に生成し, これらの摂動に対するモデルの感度を評価する。
論文 参考訳(メタデータ) (2025-08-03T17:29:48Z) - ICR Probe: Tracking Hidden State Dynamics for Reliable Hallucination Detection in LLMs [50.18087419133284]
隠れた状態を活用する幻覚検出法は、主に静的および孤立した表現に焦点を当てている。
隠れ状態の更新に対するモジュールの寄与を定量化する新しいメトリック ICR Score を導入する。
本稿では,隠れ状態の層間進化を捉えた幻覚検出手法 ICR Probe を提案する。
論文 参考訳(メタデータ) (2025-07-22T11:44:26Z) - Learning Auxiliary Tasks Improves Reference-Free Hallucination Detection in Open-Domain Long-Form Generation [78.78421340836915]
オープンドメイン長文応答における参照なし幻覚検出を系統的に検討する。
その結果,内的状態は事実と幻覚的内容とを確実に区別するには不十分であることが判明した。
RATE-FTと呼ばれる新しいパラダイムを導入し、モデルが幻覚検出のメインタスクと共同で学習するための補助的なタスクで微調整を強化する。
論文 参考訳(メタデータ) (2025-05-18T07:10:03Z) - HuDEx: Integrating Hallucination Detection and Explainability for Enhancing the Reliability of LLM responses [0.12499537119440242]
本稿では,HuDExと命名された幻覚検出モデルについて説明する。
提案モデルでは,検出を説明と統合する新たなアプローチを提供し,ユーザとLLM自体がエラーを理解し,低減することができる。
論文 参考訳(メタデータ) (2025-02-12T04:17:02Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。