論文の概要: In Search of Truth: An Interrogation Approach to Hallucination Detection
- arxiv url: http://arxiv.org/abs/2403.02889v2
- Date: Wed, 20 Mar 2024 09:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 21:28:43.127036
- Title: In Search of Truth: An Interrogation Approach to Hallucination Detection
- Title(参考訳): 真実の探索:幻覚検出のための干渉的アプローチ
- Authors: Yakir Yehuda, Itzik Malkiel, Oren Barkan, Jonathan Weill, Royi Ronen, Noam Koenigstein,
- Abstract要約: 大きな言語モデル(LLM)は、現実的に聞こえる答えを発明するが、現実の真実から遠ざかる。
本稿では,大規模言語モデルにおける幻覚検出手法を提案する。
実験では,Llama-2の幻覚を最大62%観察し,外的知識に依存しない平衡精度(B-ACC)を87%の精度で達成した。
- 参考スコア(独自算出の注目度): 12.427232123205671
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the many advances of Large Language Models (LLMs) and their unprecedented rapid evolution, their impact and integration into every facet of our daily lives is limited due to various reasons. One critical factor hindering their widespread adoption is the occurrence of hallucinations, where LLMs invent answers that sound realistic, yet drift away from factual truth. In this paper, we present a novel method for detecting hallucinations in large language models, which tackles a critical issue in the adoption of these models in various real-world scenarios. Through extensive evaluations across multiple datasets and LLMs, including Llama-2, we study the hallucination levels of various recent LLMs and demonstrate the effectiveness of our method to automatically detect them. Notably, we observe up to 62% hallucinations for Llama-2 in a specific experiment, where our method achieves a Balanced Accuracy (B-ACC) of 87%, all without relying on external knowledge.
- Abstract(参考訳): 大きな言語モデル(LLM)の多くの進歩と前例のない急激な進化にもかかわらず、その影響と日常生活のあらゆる側面への統合は、様々な理由で制限されている。
彼らの普及を妨げる重要な要因の1つは幻覚の発生であり、LLMは現実的に聞こえる答えを発明するが、現実の真実から遠ざかる。
本稿では,大規模言語モデルにおける幻覚を検出する新しい手法を提案する。
Llama-2 を含む複数のデータセットや LLM の広範な評価を通じて,近年の LLM の幻覚レベルについて検討し,その検出方法の有効性を実証した。
特に,Llama-2に対する幻覚の最大62%を特定の実験で観察し,本手法は外部知識に頼らずに87%の平衡精度(B-ACC)を達成する。
関連論文リスト
- KnowHalu: Hallucination Detection via Multi-Form Knowledge Based Factual Checking [55.2155025063668]
KnowHaluは、大規模言語モデル(LLM)によって生成されたテキスト中の幻覚を検出する新しいアプローチである
ステップワイズ推論、マルチフォームクエリ、ファクトチェックのためのマルチフォーム知識、フュージョンベースの検出メカニズムを使用する。
評価の結果,KnowHaluは様々なタスクにおける幻覚検出においてSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-04-03T02:52:07Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - A Survey on Hallucination in Large Language Models: Principles,
Taxonomy, Challenges, and Open Questions [42.007305423982515]
大型言語モデル(LLM)は幻覚を生じさせ、現実の事実やユーザ入力と矛盾する内容をもたらす。
本調査は, LLM幻覚の分野での最近の進歩について, 徹底的, 徹底的に概観することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T09:25:37Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [52.513957834345746]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language
Models [63.973142426228016]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large
Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z) - A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of
LLMs by Validating Low-Confidence Generation [76.34411067299331]
大規模な言語モデルは、しばしば信頼性を著しく損なう「ハロシン化」する傾向がある。
生成過程における幻覚を積極的に検出・緩和する手法を提案する。
提案手法は, GPT-3.5モデルの幻覚を平均47.5%から14.5%に低減する。
論文 参考訳(メタデータ) (2023-07-08T14:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。