論文の概要: Constructing Benchmarks and Interventions for Combating Hallucinations in LLMs
- arxiv url: http://arxiv.org/abs/2404.09971v2
- Date: Thu, 11 Jul 2024 06:31:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 22:48:00.987020
- Title: Constructing Benchmarks and Interventions for Combating Hallucinations in LLMs
- Title(参考訳): LLMにおけるハロゲン化防止のためのベンチマークの構築と対策
- Authors: Adi Simhi, Jonathan Herzig, Idan Szpektor, Yonatan Belinkov,
- Abstract要約: 大型言語モデル(LLM)は幻覚を起こす傾向がある。
最近の研究は、モデル世代に介入することで幻覚を緩和しようとする試みである。
一般的な研究は異なる設定を採用しており、幻覚の原因を適切に区別していない。
- 参考スコア(独自算出の注目度): 43.62904897907926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are prone to hallucinations, which sparked a widespread effort to detect and prevent them. Recent work attempts to mitigate hallucinations by intervening in the model's generation, typically computing representative vectors of hallucinations vs. grounded generations, for steering the model's hidden states away from a hallucinatory state. However, common studies employ different setups and do not properly separate different possible causes of hallucinations, making interventions misguided. In this work, we introduce a method for categorizing examples based on the model's prior knowledge, named WACK. We construct WACK benchmarks that support interventions in two settings: open-book and closed-book question answering. Using the benchmarks, we perform an extensive investigation of the effect of different choices for intervention, such as the intervened components, and how often and how strongly to intervene. We find that intervention success varies depending on the component, with the attention blocks performing well and the residual stream proving detrimental to language modeling capabilities. We also show that interventions can benefit from representative vectors collected before, rather than after, a hallucination occurs. Finally, we introduce a new dynamic intervention, which intervenes only if needed, and thus is more robust than standard static interventions. The code is available at https://github.com/technion-cs-nlp/hallucination-mitigation .
- Abstract(参考訳): 大型言語モデル(LLM)は幻覚を起こす傾向があり、それらを検出し予防するための広範囲な取り組みを引き起こした。
最近の研究は、モデルが隠れた状態を幻覚状態から遠ざけるために、モデル世代(典型的には幻覚と接地世代)に介入することによって幻覚を緩和しようとする試みである。
しかし、一般的な研究では異なる設定が採用されており、幻覚の原因を適切に区別しておらず、介入を誤認している。
そこで本研究では,WACKというモデルが持つ事前知識に基づいて,サンプルを分類する手法を提案する。
オープンブックとクローズドブックの2つの設定で介入を支援するWACKベンチマークを構築した。
ベンチマークを用いて、インターベンブドコンポーネントなどの介入に対する異なる選択の効果と、介入の頻度と強度について、広範囲に調査する。
介入の成功はコンポーネントによって異なり、注意ブロックは良好に動作し、残ストリームは言語モデリング能力に有害であることを証明している。
また、介入は幻覚ではなく、事前に収集した代表ベクトルの恩恵を受けることも示している。
最後に、必要に応じてのみ介入する新しい動的介入を導入し、通常の静的介入よりも堅牢である。
コードはhttps://github.com/technion-cs-nlp/hallucination-mitigationで公開されている。
関連論文リスト
- Counterfactual Generation from Language Models [64.55296662926919]
対実的推論が介入と概念的に異なることを示す。
そこで本研究では,真の文字列反事実を生成するためのフレームワークを提案する。
我々の実験は、このアプローチが有意義な反事実を生み出すことを示した。
論文 参考訳(メタデータ) (2024-11-11T17:57:30Z) - Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models [13.48296910438554]
現在のマルチモーダル大言語モデル(MLLM)に悩まされる幻覚
実世界のシナリオから得られた20,000以上のサンプルからなる関係幻覚を対象とするベンチマークであるReefknotを紹介する。
3つの異なるタスクに対する比較評価の結果、関係幻覚を緩和する現在のMLLMの能力に重大な欠点があることが判明した。
論文 参考訳(メタデータ) (2024-08-18T10:07:02Z) - ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding [25.489832294197797]
本稿では,LVLM推論における幻覚の低減を目的とした,命令コントラストデコーディング(ICD)手法を提案する。
本手法は,マルチモーダル核融合モジュールにおいて,外乱指示が幻覚を著しく悪化させるという観察に着想を得たものである。
論文 参考訳(メタデータ) (2024-03-27T16:04:47Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。