論文の概要: Can We Catch the Elephant? The Evolvement of Hallucination Evaluation on Natural Language Generation: A Survey
- arxiv url: http://arxiv.org/abs/2404.12041v1
- Date: Thu, 18 Apr 2024 09:52:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 19:21:31.469669
- Title: Can We Catch the Elephant? The Evolvement of Hallucination Evaluation on Natural Language Generation: A Survey
- Title(参考訳): エレファントをキャッチできるか? : 自然言語生成における幻覚評価の展開
- Authors: Siya Qi, Yulan He, Zheng Yuan,
- Abstract要約: 自然言語生成の幻覚(NLG)は、部屋の象のように見えますが、しばしば見落とされています。
大きな言語モデル(LLM)では、さまざまな下流タスクやカジュアルな会話で幻覚が発生する。
本稿では,幻覚評価手法の進化に関する包括的調査を行う。
- 参考スコア(独自算出の注目度): 15.67906403625006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucination in Natural Language Generation (NLG) is like the elephant in the room, obvious but often overlooked until recent achievements significantly improved the fluency and grammatical accuracy of generated text. For Large Language Models (LLMs), hallucinations can happen in various downstream tasks and casual conversations, which need accurate assessment to enhance reliability and safety. However, current studies on hallucination evaluation vary greatly, and people still find it difficult to sort out and select the most appropriate evaluation methods. Moreover, as NLP research gradually shifts to the domain of LLMs, it brings new challenges to this direction. This paper provides a comprehensive survey on the evolvement of hallucination evaluation methods, aiming to address three key aspects: 1) Diverse definitions and granularity of facts; 2) The categories of automatic evaluators and their applicability; 3) Unresolved issues and future directions.
- Abstract(参考訳): 自然言語生成における幻覚(NLG)は、部屋の象のように見え、しばしば見過ごされるが、最近の成果によって生成されたテキストの流速と文法的精度が著しく向上するまでは、しばしば見過ごされる。
大規模言語モデル(LLM)では、さまざまな下流タスクやカジュアルな会話で幻覚が起こり、信頼性と安全性を高めるために正確な評価が必要である。
しかし,幻覚評価に関する最近の研究は様々であり,最も適切な評価方法の選別や選別が困難である。
さらに、NLP研究がLSMの領域に徐々に移行するにつれて、この方向に新たな課題がもたらされる。
本稿では,幻覚評価手法の進化に関する総合的な調査を行い,3つの重要な側面に対処することを目的とした。
1) 事実のさまざまな定義及び粒度
2 自動評価器の分類及びその適用性
3)未解決問題及び今後の方向性
関連論文リスト
- Benchmarking Hallucination in Large Language Models based on
Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。
それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。
本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文 参考訳(メタデータ) (2024-03-06T09:06:34Z) - Fine-grained Hallucination Detection and Editing for Language Models [114.28828114834657]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - A Comprehensive Survey of Hallucination Mitigation Techniques in Large
Language Models [7.705767540805267]
大きな言語モデル(LLM)は、人間のようなテキストを書く能力の進歩を続けている。
重要な課題は、事実に見えるが根拠のないコンテンツを生み出すことを幻覚させる傾向にある。
本稿では,LLMにおける幻覚を緩和するために開発された32以上の技術について調査する。
論文 参考訳(メタデータ) (2024-01-02T17:56:30Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - A Survey on Hallucination in Large Language Models: Principles,
Taxonomy, Challenges, and Open Questions [42.007305423982515]
大型言語モデル(LLM)は幻覚を生じさせ、現実の事実やユーザ入力と矛盾する内容をもたらす。
本調査は, LLM幻覚の分野での最近の進歩について, 徹底的, 徹底的に概観することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T09:25:37Z) - Cognitive Mirage: A Review of Hallucinations in Large Language Models [10.86850565303067]
各種テキスト生成タスクから幻覚の新しい分類法を提案する。
理論的洞察、検出方法、改善アプローチを提供する。
幻覚が注目される中、我々は関連研究の進捗状況の更新を続行する。
論文 参考訳(メタデータ) (2023-09-13T08:33:09Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z) - Survey of Hallucination in Natural Language Generation [71.70363756667832]
近年,シーケンス間深層学習技術の発展により,自然言語生成(NLG)は指数関数的に向上している。
深層学習に基づく生成は意図しないテキストを幻覚させる傾向があるため、システム性能は低下する。
この調査は、NLGにおける幻覚テキストの課題に取り組む研究者の協力活動を促進するのに役立つ。
論文 参考訳(メタデータ) (2022-02-08T03:55:01Z) - On Hallucination and Predictive Uncertainty in Conditional Language
Generation [76.18783678114325]
高い予測の不確実性は幻覚の確率が高い。
認識的不確実性は、アレエータ的あるいは全体的不確実性よりも幻覚の指標である。
提案したビームサーチ変種との幻覚を抑えるため、標準メートル法で取引性能のより良い結果を得るのに役立ちます。
論文 参考訳(メタデータ) (2021-03-28T00:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。