論文の概要: On Early Detection of Hallucinations in Factual Question Answering
- arxiv url: http://arxiv.org/abs/2312.14183v2
- Date: Wed, 27 Dec 2023 20:26:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 21:12:47.129029
- Title: On Early Detection of Hallucinations in Factual Question Answering
- Title(参考訳): 質問応答における幻覚の早期検出について
- Authors: Ben Snyder, Marius Moisescu, Muhammad Bilal Zafar
- Abstract要約: 幻覚は依然として ユーザーの信頼を得るための大きな障害です
モデル生成に関連するアーティファクトが、世代が幻覚を含むことを示すヒントを提供することができるかどうかを探索する。
モデル生成を幻覚と非幻覚に分類するために、これらのアーティファクトを入力機能として使用するバイナリ分類器を訓練する。
- 参考スコア(独自算出の注目度): 5.353798542990414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) have taken great strides towards helping
humans with a plethora of tasks like search and summarization, hallucinations
remain a major impediment towards gaining user trust. The fluency and coherence
of model generations even when hallucinating makes it difficult to detect
whether or not a model is hallucinating. In this work, we explore if the
artifacts associated with the model generations can provide hints that the
generation will contain hallucinations. Specifically, we probe LLMs at 1) the
inputs via Integrated Gradients based token attribution, 2) the outputs via the
Softmax probabilities, and 3) the internal state via self-attention and
fully-connected layer activations for signs of hallucinations on open-ended
question answering tasks. Our results show that the distributions of these
artifacts differ between hallucinated and non-hallucinated generations.
Building on this insight, we train binary classifiers that use these artifacts
as input features to classify model generations into hallucinations and
non-hallucinations. These hallucination classifiers achieve up to 0.80 AUROC.
We further show that tokens preceding a hallucination can predict the
subsequent hallucination before it occurs.
- Abstract(参考訳): 大きな言語モデル(LLM)は、検索や要約といった多くのタスクで人間を助けるために大きな努力をしてきたが、幻覚は依然として、ユーザの信頼を得るための大きな障害である。
幻覚がモデルが幻覚であるかどうかを検出するのが困難であるときでさえ、モデル生成の流動性とコヒーレンス。
本研究では,モデル世代に関連する成果物が,その世代が幻覚を含むというヒントを提供できるかどうかを考察する。
具体的には LLM を探索する。
1)統合勾配に基づくトークン属性による入力
2) ソフトマックス確率による出力, および
3)オープンエンド質問応答課題に対する幻覚の徴候に対する自己注意と完全連結層活性化による内部状態
その結果,これらの成果物の分布は幻覚と非幻覚の世代で異なることがわかった。
この知見に基づいて、これらのアーティファクトを入力特徴として使用するバイナリ分類器を訓練し、モデル世代を幻覚と非幻覚に分類する。
これらの幻覚分類器は最大0.80AUROCに達する。
さらに,幻覚の前にあるトークンが,それが起こる前に幻覚を予測できることを示す。
関連論文リスト
- Hallucinations in Neural Automatic Speech Recognition: Identifying
Errors and Hallucinatory Models [11.492702369437785]
幻覚は、ソースの発声とは意味的に無関係であるが、それでも流動的でコヒーレントである。
単語誤り率などの一般的なメトリクスは、幻覚モデルと非幻覚モデルとを区別できないことを示す。
本研究は,幻覚を識別する枠組みを考案し,その意味的関係と基礎的真理と流布との関係を解析する。
論文 参考訳(メタデータ) (2024-01-03T06:56:56Z) - Do Androids Know They're Only Dreaming of Electric Sheep? [49.72015518385204]
いくつかのタスクで有機および合成幻覚のスパンアノテートデータセットを作成します。
合成幻覚の強制復号化状態で訓練されたプローブは、一般に有機幻覚検出において生態的に無効であることがわかった。
論文 参考訳(メタデータ) (2023-12-28T18:59:50Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction
Data [106.42508109138788]
機械生成データに固有の幻覚は未発見である。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language
Models [63.973142426228016]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large
Language Models [146.87696738011712]
大型言語モデル(LLM)は幻覚を生成する傾向があり、すなわち、ソースと矛盾したり、事実の知識によって検証できないコンテンツである。
言語モデル(HaluEval)のための幻覚評価ベンチマーク(Halucination Evaluation benchmark)を導入する。
論文 参考訳(メタデータ) (2023-05-19T15:36:27Z) - Understanding and Detecting Hallucinations in Neural Machine Translation
via Model Introspection [28.445196622710164]
まず, 幻覚の発生に対する相対的なトークン寄与を, ソース摂動によって生成された非幻覚出力と対照的な幻覚出力で分析することにより, 幻覚の内的モデル症状を同定する。
次に、これらの症状は、より軽量な幻覚検知器の設計において、自然幻覚の信頼性のある指標であることが示される。
論文 参考訳(メタデータ) (2023-01-18T20:43:13Z) - On the Origin of Hallucinations in Conversational Models: Is it the
Datasets or the Models? [32.41234580068662]
既存の知識基盤型対話型ベンチマークといくつかの最先端モデルについて検討する。
標準ベンチマークは60%以上の幻覚応答で構成されており、幻覚だけでなく幻覚を増幅するモデルにつながっている。
この結果から,既存のデータセットやモデルの品質に関する重要な疑問が浮かび上がっている。
論文 参考訳(メタデータ) (2022-04-17T05:15:24Z) - On Hallucination and Predictive Uncertainty in Conditional Language
Generation [76.18783678114325]
高い予測の不確実性は幻覚の確率が高い。
認識的不確実性は、アレエータ的あるいは全体的不確実性よりも幻覚の指標である。
提案したビームサーチ変種との幻覚を抑えるため、標準メートル法で取引性能のより良い結果を得るのに役立ちます。
論文 参考訳(メタデータ) (2021-03-28T00:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。