論文の概要: Mechanisms of non-factual hallucinations in language models
- arxiv url: http://arxiv.org/abs/2403.18167v1
- Date: Wed, 27 Mar 2024 00:23:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 18:45:45.669240
- Title: Mechanisms of non-factual hallucinations in language models
- Title(参考訳): 言語モデルにおける非事実幻覚のメカニズム
- Authors: Lei Yu, Meng Cao, Jackie Chi Kit Cheung, Yue Dong,
- Abstract要約: State-of-the-art Language Model (LM) は、世界の知識と混同する非現実的な幻覚を生じることがある。
本研究では,幻覚の機械的原因,特にLMが対象属性を不正確に予測する非現実的原因について検討した。
- 参考スコア(独自算出の注目度): 42.46721214112836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art language models (LMs) sometimes generate non-factual hallucinations that misalign with world knowledge. Despite extensive efforts to detect and mitigate hallucinations, understanding their internal mechanisms remains elusive. Our study investigates the mechanistic causes of hallucination, specifically non-factual ones where the LM incorrectly predicts object attributes in response to subject-relation queries. With causal mediation analysis and embedding space projection, we identify two general mechanistic causes of hallucinations shared across LMs of various scales and designs: 1) insufficient subject attribute knowledge in lower layer MLPs, and 2) failing to select the correct object attribute in upper layer attention heads and MLPs. These two mechanisms exhibit varying degrees of subject-object association, predictive uncertainty and perturbation robustness. Additionally, we scrutinize LM pre-training checkpoints, revealing distinct learning dynamics for the two mechanistic causes of hallucinations. We also highlight how attribution features from our causal analysis can effectively construct hallucination detectors. Our work proposes a mechanistic understanding of LM factual errors.
- Abstract(参考訳): State-of-the-art Language Model (LM) は、世界の知識と混同する非現実的な幻覚を生じることがある。
幻覚を検出・緩和するための広範囲な努力にもかかわらず、その内部メカニズムの理解はいまだ解明されていない。
本研究では,幻覚の機械的原因,特にLMが対象属性を不正確に予測する非現実的原因について検討した。
因果媒介分析と埋め込み空間投影を用いて、様々なスケールと設計のLM間で共有される幻覚の2つの一般的な機械的原因を同定する。
1)下層MLPにおける主観的属性知識の不足,及び
2) 上層アテンションヘッドとMPPの正対象属性の選択に失敗した。
これら2つのメカニズムは、主観的対象関係、予測的不確実性、摂動ロバストネスの程度が異なる。
さらに, LM事前学習チェックポイントを精査し, 幻覚の2つのメカニズム的原因について, 異なる学習力学を明らかにした。
また、因果解析による帰属的特徴が幻覚検知器を効果的に構築する方法についても強調する。
本研究は,LM実ミスの機械的理解を提案する。
関連論文リスト
- On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。
正しい解答知識を持つLLMの現象を推論力学の観点から検討する。
我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文 参考訳(メタデータ) (2024-03-29T06:48:30Z) - In-Context Sharpness as Alerts: An Inner Representation Perspective for
Hallucination Mitigation [36.31646727970656]
大規模言語モデル(LLM)は、しばしば幻覚を起こし、事実の誤りを引き起こす。
正しい世代は、不正な世代に比べて、コンテキスト内のトークンの隠された状態において、よりシャープなコンテキストアクティベーションを持つ傾向がある。
本研究では,テキスト内隠れ状態のシャープネス'を定量化し,デコード処理に組み込むエントロピーに基づく計量法を提案する。
論文 参考訳(メタデータ) (2024-03-03T15:53:41Z) - Fine-grained Hallucination Detection and Editing for Language Models [114.28828114834657]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large
Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z) - Understanding and Detecting Hallucinations in Neural Machine Translation
via Model Introspection [28.445196622710164]
まず, 幻覚の発生に対する相対的なトークン寄与を, ソース摂動によって生成された非幻覚出力と対照的な幻覚出力で分析することにより, 幻覚の内的モデル症状を同定する。
次に、これらの症状は、より軽量な幻覚検知器の設計において、自然幻覚の信頼性のある指標であることが示される。
論文 参考訳(メタデータ) (2023-01-18T20:43:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。