論文の概要: Detecting Hallucination and Coverage Errors in Retrieval Augmented Generation for Controversial Topics
- arxiv url: http://arxiv.org/abs/2403.08904v1
- Date: Wed, 13 Mar 2024 18:47:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 22:37:06.327475
- Title: Detecting Hallucination and Coverage Errors in Retrieval Augmented Generation for Controversial Topics
- Title(参考訳): 論争トピックのための検索増強ジェネレーションにおける幻覚と被覆誤差の検出
- Authors: Tyler A. Chang, Katrin Tomanek, Jessica Hoffmann, Nithum Thain, Erin van Liemt, Kathleen Meier-Hellstern, Lucas Dixon,
- Abstract要約: 我々は,ウィキペディアのニュートラル・ポイント・オブ・ビュー(NPOV)の原則に基づいて,LLMベースのチャットボットで議論を呼んでいるトピックを扱うための戦略を探る。
決定論的検索システムを用いて、本手法のテキスト生成中に発生する一般的なLCM障害モード、すなわち幻覚とカバレッジエラーに焦点を当てる。
本手法は, 幻覚 (84.0%) とカバレッジエラー (85.2%) の検出において, 良好な結果が得られた。
- 参考スコア(独自算出の注目度): 16.874364446070967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore a strategy to handle controversial topics in LLM-based chatbots based on Wikipedia's Neutral Point of View (NPOV) principle: acknowledge the absence of a single true answer and surface multiple perspectives. We frame this as retrieval augmented generation, where perspectives are retrieved from a knowledge base and the LLM is tasked with generating a fluent and faithful response from the given perspectives. As a starting point, we use a deterministic retrieval system and then focus on common LLM failure modes that arise during this approach to text generation, namely hallucination and coverage errors. We propose and evaluate three methods to detect such errors based on (1) word-overlap, (2) salience, and (3) LLM-based classifiers. Our results demonstrate that LLM-based classifiers, even when trained only on synthetic errors, achieve high error detection performance, with ROC AUC scores of 95.3% for hallucination and 90.5% for coverage error detection on unambiguous error cases. We show that when no training data is available, our other methods still yield good results on hallucination (84.0%) and coverage error (85.2%) detection.
- Abstract(参考訳): 我々は,ウィキペディアのニュートラル・ポイント・オブ・ビュー(NPOV)原則に基づくLLMベースのチャットボットにおいて,議論を呼んでいるトピックを扱うための戦略を探究する。
知識ベースから視点を抽出し,LLMが与えられた視点から流動的で忠実な応答を生成する。
出発点として、決定論的検索システムを使用し、本手法のテキスト生成時に発生する一般的なLCM障害モード、すなわち幻覚やカバレッジエラーに焦点を当てる。
本稿では,(1)単語オーバーラップ,(2)サリエンス,(3)LLMに基づく分類器に基づく3つの誤り検出手法を提案し,評価する。
以上の結果から,LLMを用いた分類器は, 合成誤りのみを訓練しても高い誤差検出性能を示し, ROC AUCスコアは95.3%, カバーエラー検出は90.5%であった。
トレーニングデータがない場合、他の方法でも幻覚(84.0%)とカバレッジエラー(85.2%)が検出できることを示す。
関連論文リスト
- LLM Hallucination Reasoning with Zero-shot Knowledge Test [10.306443936136425]
我々は,LLM生成テキストを3つのカテゴリの1つに分類する新たなタスクであるHalucination Reasoningを導入する。
新たなデータセットを用いた実験により,幻覚推論における本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-11-14T18:55:26Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Analyzing LLM Behavior in Dialogue Summarization: Unveiling Circumstantial Hallucination Trends [38.86240794422485]
対話要約のための大規模言語モデルの忠実度を評価する。
私たちの評価は幻覚を構成するものに関して微妙な点を呈する。
既存の指標より優れた微細な誤差検出のための2つのプロンプトベースのアプローチを導入する。
論文 参考訳(メタデータ) (2024-06-05T17:49:47Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。