論文の概要: A Survey of Automatic Hallucination Evaluation on Natural Language Generation
- arxiv url: http://arxiv.org/abs/2404.12041v3
- Date: Thu, 19 Jun 2025 21:17:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.635158
- Title: A Survey of Automatic Hallucination Evaluation on Natural Language Generation
- Title(参考訳): 自然言語生成における幻覚自動評価の実態調査
- Authors: Siya Qi, Lin Gui, Yulan He, Zheng Yuan,
- Abstract要約: 大規模言語モデル(LLM)は、正確な幻覚評価という重要な課題を提起している。
本研究は,74種類の評価手法を包括的に分析することにより,この限界に対処するものである。
本稿では,解釈可能性の強化やアプリケーション固有の評価基準の統合など,戦略的な方向性を提案する。
- 参考スコア(独自算出の注目度): 18.277552023139847
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The proliferation of Large Language Models (LLMs) has introduced a critical challenge: accurate hallucination evaluation that ensures model reliability. While Automatic Hallucination Evaluation (AHE) has emerged as essential, the field suffers from methodological fragmentation, hindering both theoretical understanding and practical advancement. This survey addresses this critical gap through a comprehensive analysis of 74 evaluation methods, revealing that 74% specifically target LLMs, a paradigm shift that demands new evaluation frameworks. We formulate a unified evaluation pipeline encompassing datasets and benchmarks, evidence collection strategies, and comparison mechanisms, systematically documenting the evolution from pre-LLM to post-LLM methodologies. Beyond taxonomical organization, we identify fundamental limitations in current approaches and their implications for real-world deployment. To guide future research, we delineate key challenges and propose strategic directions, including enhanced interpretability mechanisms and integration of application-specific evaluation criteria, ultimately providing a roadmap for developing more robust and practical hallucination evaluation systems.
- Abstract(参考訳): LLM(Large Language Models)の普及は、モデルの信頼性を保証する正確な幻覚評価という、重要な課題をもたらした。
AHE(Automatic Hallucination Evaluation)が重要視されているが、この分野は方法論的な断片化に悩まされ、理論的な理解と実践的な進歩を妨げている。
この調査は74の評価手法を包括的に分析し、新たな評価フレームワークを必要とするパラダイムシフトであるLSMを74%が対象としていることを明らかにする。
我々は、データセットやベンチマーク、エビデンス収集戦略、比較メカニズムを含む統一評価パイプラインを定式化し、LLM前からLLM後までの方法論の進化を体系的に文書化する。
分類学的組織以外にも、現在のアプローチの基本的限界と、実際の展開におけるその影響を特定します。
今後の研究を導くため、我々は重要な課題を整理し、解釈可能性の強化やアプリケーション固有の評価基準の統合など戦略的な方向性を提案し、最終的にはより堅牢で実用的な幻覚評価システムを開発するためのロードマップを提供する。
関連論文リスト
- H-POPE: Hierarchical Polling-based Probing Evaluation of Hallucinations in Large Vision-Language Models [0.0]
対象物の存在と属性の幻覚を評価する粗粒度ベンチマークであるH-POPEを提案する。
評価の結果,モデルが物体の存在に幻覚を与える傾向がみられ,さらに微粒な属性が生じる傾向が示唆された。
論文 参考訳(メタデータ) (2024-11-06T17:55:37Z) - The Hallucinations Leaderboard -- An Open Effort to Measure Hallucinations in Large Language Models [24.11077502209129]
大規模言語モデル(LLM)は自然言語処理(NLP)のランドスケープを、人間のようなテキストを理解して生成する優れた能力で変えてきた。
しかし、これらのモデルは幻覚(幻覚)の傾向があり、実際の現実や入力コンテキストと一致しない。
本稿では,各モデルの幻覚発生傾向を定量的に測定し,比較するオープンイニシアチブである幻覚リーダーボードを紹介する。
論文 参考訳(メタデータ) (2024-04-08T23:16:22Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - On Early Detection of Hallucinations in Factual Question Answering [4.76359068115052]
幻覚は依然として ユーザーの信頼を得るための大きな障害です
本研究では、モデル生成に関連するアーティファクトが、生成が幻覚を含むことを示すヒントを提供することができるかどうかを探索する。
以上の結果から,これらのアーティファクトの分布は,ハロゲン化世代と非ハロゲン化世代の違いが示唆された。
論文 参考訳(メタデータ) (2023-12-19T14:35:04Z) - Towards Mitigating Hallucination in Large Language Models via
Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。
本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文 参考訳(メタデータ) (2023-10-10T03:05:44Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Cognitive Mirage: A Review of Hallucinations in Large Language Models [10.86850565303067]
各種テキスト生成タスクから幻覚の新しい分類法を提案する。
理論的洞察、検出方法、改善アプローチを提供する。
幻覚が注目される中、我々は関連研究の進捗状況の更新を続行する。
論文 参考訳(メタデータ) (2023-09-13T08:33:09Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z) - Survey of Hallucination in Natural Language Generation [69.9926849848132]
近年,シーケンス間深層学習技術の発展により,自然言語生成(NLG)は指数関数的に向上している。
深層学習に基づく生成は意図しないテキストを幻覚させる傾向があるため、システム性能は低下する。
この調査は、NLGにおける幻覚テキストの課題に取り組む研究者の協力活動を促進するのに役立つ。
論文 参考訳(メタデータ) (2022-02-08T03:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。