論文の概要: The Troubling Emergence of Hallucination in Large Language Models -- An
Extensive Definition, Quantification, and Prescriptive Remediations
- arxiv url: http://arxiv.org/abs/2310.04988v2
- Date: Mon, 23 Oct 2023 03:37:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 07:00:57.292716
- Title: The Troubling Emergence of Hallucination in Large Language Models -- An
Extensive Definition, Quantification, and Prescriptive Remediations
- Title(参考訳): 大規模言語モデルにおける幻覚の厄介な発生 -- 包括的定義、定量化、規範的修復
- Authors: Vipula Rawte, Swagata Chakraborty, Agnibh Pathak, Anubhav Sarkar, S.M
Towhidul Islam Tonmoy, Aman Chadha, Amit P. Sheth, Amitava Das
- Abstract要約: 我々は、その程度、向き、カテゴリーに基づいて、プロファイリング幻覚について論じる。
幻覚は, (i) acronym ambiguity, (ii)numeric nuisance, (iii) generated golem, (iv) virtual voice, (v) Geographic erratum, (vi) time wrapの6種類に分類される。
より広範なNLPコミュニティのためのツールとしてHalucination Vulnerability Index (HVI)を提案する。
- 参考スコア(独自算出の注目度): 10.20632187568563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent advancements in Large Language Models (LLMs) have garnered
widespread acclaim for their remarkable emerging capabilities. However, the
issue of hallucination has parallelly emerged as a by-product, posing
significant concerns. While some recent endeavors have been made to identify
and mitigate different types of hallucination, there has been a limited
emphasis on the nuanced categorization of hallucination and associated
mitigation methods. To address this gap, we offer a fine-grained discourse on
profiling hallucination based on its degree, orientation, and category, along
with offering strategies for alleviation. As such, we define two overarching
orientations of hallucination: (i) factual mirage (FM) and (ii) silver lining
(SL). To provide a more comprehensive understanding, both orientations are
further sub-categorized into intrinsic and extrinsic, with three degrees of
severity - (i) mild, (ii) moderate, and (iii) alarming. We also meticulously
categorize hallucination into six types: (i) acronym ambiguity, (ii) numeric
nuisance, (iii) generated golem, (iv) virtual voice, (v) geographic erratum,
and (vi) time wrap. Furthermore, we curate HallucInation eLiciTation (HILT), a
publicly available dataset comprising of 75,000 samples generated using 15
contemporary LLMs along with human annotations for the aforementioned
categories. Finally, to establish a method for quantifying and to offer a
comparative spectrum that allows us to evaluate and rank LLMs based on their
vulnerability to producing hallucinations, we propose Hallucination
Vulnerability Index (HVI). We firmly believe that HVI holds significant value
as a tool for the wider NLP community, with the potential to serve as a rubric
in AI-related policy-making. In conclusion, we propose two solution strategies
for mitigating hallucinations.
- Abstract(参考訳): 最近のLLM(Large Language Models)の進歩は、その顕著な出現能力に対して広く称賛されている。
しかし、幻覚の問題は副産物として並列に現れ、重大な懸念を呈している。
近年の幻覚の特定・緩和への取り組みはいくつかあるが、幻覚の微妙な分類とそれに関連する緩和方法に限定的に重点が置かれている。
このギャップに対処するために、我々は、その度合い、向き、カテゴリーに基づいて、プロファイリング幻覚に関するきめ細かい談話と、緩和戦略を提供する。
このように、幻覚の2つの包括的な方向を定義する。
(i)事実ミラージュ(fm)及び
(ii)銀製ライニング(sl)
より包括的に理解するために、両方向はさらに内在的、外在的に分類され、3度の重度を持つ。
(i)軽度。
(ii)適度で
(iii)警報。
幻覚も慎重に6種類に分類する。
(i)曖昧さの頭字語
(ii)数字のニュアンス
(iii)ゴーレム。
(iv)仮想声
(v)地理的不規則、及び
(vi)タイムラップ。
さらに,HalucInation eLiciTation (HILT) は,15個の現代LPMを用いて作成した75,000個のサンプルと,前述のカテゴリに対する人間のアノテーションからなる公開データセットである。
最後に,幻覚を発生させる脆弱性に基づいてLLMの評価とランク付けを行うための比較スペクトルの定量化手法を確立するために,Halucination Vulnerability Index (HVI)を提案する。
私たちは、HVIが幅広いNLPコミュニティのツールとして重要な価値を持っていると強く信じています。
結論として,幻覚を緩和するための2つの解法を提案する。
関連論文リスト
- Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models [13.48296910438554]
現在のマルチモーダル大言語モデル(MLLM)に悩まされる幻覚
実世界のシナリオから得られた20,000以上のサンプルからなる関係幻覚を対象とするベンチマークであるReefknotを紹介する。
3つの異なるタスクに対する比較評価の結果、関係幻覚を緩和する現在のMLLMの能力に重大な欠点があることが判明した。
論文 参考訳(メタデータ) (2024-08-18T10:07:02Z) - ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - ANAH: Analytical Annotation of Hallucinations in Large Language Models [65.12177400764506]
我々は、大言語モデルにおける幻覚の@textbfAN$alytical $textbfA$nnotationを提供するデータセットである$textbfANAH$を提示する。
ANAHは、700以上のトピックをカバーする4.3k LLM応答のための12kの文レベルのアノテーションで構成されている。
幻覚アノテーションの微粒化により, LLMの幻覚が解答に蓄積されることを定量的に確認し, ANAHを用いて幻覚アノテーションを訓練し, 評価する。
論文 参考訳(メタデータ) (2024-05-30T17:54:40Z) - Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。
彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。
現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。
しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文 参考訳(メタデータ) (2024-05-24T08:46:31Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding [25.489832294197797]
本稿では,LVLM推論における幻覚の低減を目的とした,命令コントラストデコーディング(ICD)手法を提案する。
本手法は,マルチモーダル核融合モジュールにおいて,外乱指示が幻覚を著しく悪化させるという観察に着想を得たものである。
論文 参考訳(メタデータ) (2024-03-27T16:04:47Z) - Visual Hallucination: Definition, Quantification, and Prescriptive Remediations [5.980832131162941]
幻覚はおそらくAIの進歩に最も重大な障害をもたらす。
画像キャプションと視覚質問応答 (VQA) の2つの課題に基づく幻覚のきめ細かいプロファイリングを提供する。
本研究では,8つの課題のキャプションとVQAを用いて生成した2,000のサンプルと,その言説に対する人間のアノテーションからなるデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-03-26T01:28:42Z) - In-Context Sharpness as Alerts: An Inner Representation Perspective for
Hallucination Mitigation [36.31646727970656]
大規模言語モデル(LLM)は、しばしば幻覚を起こし、事実の誤りを引き起こす。
正しい世代は、不正な世代に比べて、コンテキスト内のトークンの隠された状態において、よりシャープなコンテキストアクティベーションを持つ傾向がある。
本研究では,テキスト内隠れ状態のシャープネス'を定量化し,デコード処理に組み込むエントロピーに基づく計量法を提案する。
論文 参考訳(メタデータ) (2024-03-03T15:53:41Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。