論文の概要: Knowledge Overshadowing Causes Amalgamated Hallucination in Large Language Models
- arxiv url: http://arxiv.org/abs/2407.08039v1
- Date: Wed, 10 Jul 2024 20:37:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 21:29:18.694475
- Title: Knowledge Overshadowing Causes Amalgamated Hallucination in Large Language Models
- Title(参考訳): 大規模言語モデルにおける知識オーバーシャドーイングによる幻覚の増大
- Authors: Yuji Zhang, Sha Li, Jiateng Liu, Pengfei Yu, Yi R. Fung, Jing Li, Manling Li, Heng Ji,
- Abstract要約: 「我々はこの現象を知識の誇張として造る。」
その結果, 幻覚率の増大は, 不均衡比と支配的条件記述の長さに左右されることがわかった。
本稿では,その発生前に幻覚をキャッチするための信号として,オーバーシェーディング条件を用いることを提案する。
- 参考スコア(独自算出の注目度): 65.32990889402927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucination is often regarded as a major impediment for using large language models (LLMs), especially for knowledge-intensive tasks. Even when the training corpus consists solely of true statements, language models still generate hallucinations in the form of amalgamations of multiple facts. We coin this phenomenon as ``knowledge overshadowing'': when we query knowledge from a language model with multiple conditions, some conditions overshadow others, leading to hallucinated outputs. This phenomenon partially stems from training data imbalance, which we verify on both pretrained models and fine-tuned models, over a wide range of LM model families and sizes.From a theoretical point of view, knowledge overshadowing can be interpreted as over-generalization of the dominant conditions (patterns). We show that the hallucination rate grows with both the imbalance ratio (between the popular and unpopular condition) and the length of dominant condition description, consistent with our derived generalization bound. Finally, we propose to utilize overshadowing conditions as a signal to catch hallucination before it is produced, along with a training-free self-contrastive decoding method to alleviate hallucination during inference. Our proposed approach showcases up to 82% F1 for hallucination anticipation and 11.2% to 39.4% hallucination control, with different models and datasets.
- Abstract(参考訳): 幻覚はしばしば、特に知識集約的なタスクにおいて、大きな言語モデル(LLM)を使用するための主要な障害とみなされる。
トレーニングコーパスが真のステートメントのみで構成されている場合でも、言語モデルは複数の事実のアマルガメーションという形で幻覚を発生させる。
我々はこの現象を '`knowledge overshadowing' と定義する: 言語モデルから複数の条件で知識を問うと、いくつかの条件が他の条件を覆い、幻覚的な出力をもたらす。
この現象の一部は、訓練済みモデルと微調整済みモデルの両方で、広範囲のLMモデルファミリとサイズで検証される訓練データ不均衡に由来するものであり、理論的には、知識のオーバーシャドーイングは支配的条件(パターン)の過大な一般化と解釈できる。
その結果, 幻覚率は, 不均衡比(人気条件と不人気条件の双方)と支配条件記述の長さに比例して増加し, 導出した一般化境界と一致していることがわかった。
最後に,ハロゲン化を未然に防ぐための訓練不要な自己コントラスト復号法とともに,ハロゲン化前におけるハロゲン化のシグナルとして,オーバーシャドーイング条件を用いることを提案する。
提案手法では,幻覚予測のためのF1が最大82%,幻覚制御が11.2%から39.4%,それぞれ異なるモデルとデータセットがある。
関連論文リスト
- Distinguishing Ignorance from Error in LLM Hallucinations [43.62904897907926]
我々は,2種類の幻覚の区別について,これまでの研究が完全には対応していない,クローズブック質問回答(CBQA)に焦点を当てた。
これらの症例の鑑別は幻覚の検出と緩和に不可欠である。
論文 参考訳(メタデータ) (2024-10-29T14:31:33Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。
正しい解答知識を持つLLMの現象を推論力学の観点から検討する。
我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文 参考訳(メタデータ) (2024-03-29T06:48:30Z) - Unfamiliar Finetuning Examples Control How Language Models Hallucinate [75.03210107477157]
大規模な言語モデルは、馴染みのないクエリに直面した時に幻覚化することが知られている。
モデルの微調整データの見慣れない例は、これらのエラーを形作るのに不可欠である。
本研究は,RLファインタニング戦略をさらに研究し,長大なモデル生成の現実性を改善することを目的とする。
論文 参考訳(メタデータ) (2024-03-08T18:28:13Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - Calibrated Language Models Must Hallucinate [11.891340760198798]
最近の言語モデルでは、驚くほどの頻度で、偽のもっとも可聴なテキストを生成する。
この研究は、事前訓練された言語モデルがある種の事実を幻覚させる速度に固有の統計的下限が存在することを示している。
訓練データから真偽を判断できない「任意」事実に対して, 幻覚は言語モデルに対して一定の速度で発生しなければならないことを示す。
論文 参考訳(メタデータ) (2023-11-24T18:29:50Z) - Evaluating Hallucinations in Chinese Large Language Models [65.4771562909392]
我々は,中国大言語モデルにおける幻覚現象を測定するために,HaluQA(中国語幻覚質問回答)というベンチマークを構築した。
GLM-130B と ChatGPT の2種類の幻覚について考察した。
評価のために,モデル出力が幻覚的かどうかを判定するために,GPT-4を用いた自動評価手法を設計する。
論文 参考訳(メタデータ) (2023-10-05T07:57:09Z) - Understanding and Detecting Hallucinations in Neural Machine Translation
via Model Introspection [28.445196622710164]
まず, 幻覚の発生に対する相対的なトークン寄与を, ソース摂動によって生成された非幻覚出力と対照的な幻覚出力で分析することにより, 幻覚の内的モデル症状を同定する。
次に、これらの症状は、より軽量な幻覚検知器の設計において、自然幻覚の信頼性のある指標であることが示される。
論文 参考訳(メタデータ) (2023-01-18T20:43:13Z) - On the Origin of Hallucinations in Conversational Models: Is it the
Datasets or the Models? [32.41234580068662]
既存の知識基盤型対話型ベンチマークといくつかの最先端モデルについて検討する。
標準ベンチマークは60%以上の幻覚応答で構成されており、幻覚だけでなく幻覚を増幅するモデルにつながっている。
この結果から,既存のデータセットやモデルの品質に関する重要な疑問が浮かび上がっている。
論文 参考訳(メタデータ) (2022-04-17T05:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。