論文の概要: From Single to Multi: How LLMs Hallucinate in Multi-Document Summarization
- arxiv url: http://arxiv.org/abs/2410.13961v1
- Date: Thu, 17 Oct 2024 18:38:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:25:50.598186
- Title: From Single to Multi: How LLMs Hallucinate in Multi-Document Summarization
- Title(参考訳): シングルからマルチへ:多文書要約におけるLCMの幻覚
- Authors: Catarina G. Belem, Pouya Pezeskhpour, Hayate Iso, Seiji Maekawa, Nikita Bhutani, Estevam Hruschka,
- Abstract要約: 複数の文書からトピック特化情報を要約する際に,大規模言語モデル (LLM) において幻覚がどのように現れるかを検討する。
平均して、LLM生成サマリーの最大75%は幻覚化され、要約の終わりに幻覚が生じる可能性が高い。
これらの幻覚の特徴を理解するために、手動で700以上の洞察を評価し、ほとんどのエラーは指示に従わなかったり、過度に総合的な洞察が得られなかったりする。
- 参考スコア(独自算出の注目度): 6.37435726278524
- License:
- Abstract: Although many studies have investigated and reduced hallucinations in large language models (LLMs) for single-document tasks, research on hallucination in multi-document summarization (MDS) tasks remains largely unexplored. Specifically, it is unclear how the challenges arising from handling multiple documents (e.g., repetition and diversity of information) affect models outputs. In this work, we investigate how hallucinations manifest in LLMs when summarizing topic-specific information from multiple documents. Since no benchmarks exist for investigating hallucinations in MDS, we use existing news and conversation datasets, annotated with topic-specific insights, to create two novel multi-document benchmarks. When evaluating 5 LLMs on our benchmarks, we observe that on average, up to 75% of the content in LLM-generated summary is hallucinated, with hallucinations more likely to occur towards the end of the summaries. Moreover, when summarizing non-existent topic-related information, gpt-3.5-turbo and GPT-4o still generate summaries about 79.35% and 44% of the time, raising concerns about their tendency to fabricate content. To understand the characteristics of these hallucinations, we manually evaluate 700+ insights and find that most errors stem from either failing to follow instructions or producing overly generic insights. Motivated by these observations, we investigate the efficacy of simple post-hoc baselines in mitigating hallucinations but find them only moderately effective. Our results underscore the need for more effective approaches to systematically mitigate hallucinations in MDS. We release our dataset and code at github.com/megagonlabs/Hallucination_MDS.
- Abstract(参考訳): 単一文書タスクのための大規模言語モデル(LLM)における幻覚の研究は数多く行われているが、多文書要約(MDS)タスクにおける幻覚の研究はほとんど未解明のままである。
具体的には、複数の文書(情報の繰り返しや多様性など)を扱うことで生じる課題が、モデル出力にどのように影響するかは明らかでない。
本研究では,複数の文書からトピック固有の情報を要約する際に,LLMにおける幻覚がどのように現れるかを検討する。
MDSの幻覚を調査するためのベンチマークは存在しないので、トピック固有の洞察を付加した既存のニュースと会話データセットを使用して、2つの新しいマルチドキュメントベンチマークを作成します。
ベンチマークで5つのLLMを評価すると、平均してLLM生成サマリーの最大75%が幻覚化され、要約の終わりに幻覚が生じる可能性が高くなる。
さらに、既存のトピック関連情報を要約する場合、gpt-3.5-turbo と GPT-4o は依然として79.35% と 44% のサマリーを生成しており、コンテンツ作成の傾向に懸念を抱いている。
これらの幻覚の特徴を理解するために、手動で700以上の洞察を評価し、ほとんどのエラーは指示に従わなかったり、過度に総合的な洞察が得られなかったりする。
本研究の目的は, 幻覚の緩和効果について検討することであるが, 適度な効果しか見つからないことである。
以上の結果から,MDSの幻覚を系統的に緩和するより効果的なアプローチの必要性が示唆された。
データセットとコードはgithub.com/megagonlabs/Hallucination_MDSで公開しています。
関連論文リスト
- FaithBench: A Diverse Hallucination Benchmark for Summarization by Modern LLMs [2.871226288151562]
本稿では,10の現代LSMによる難解な幻覚を含む要約幻覚ベンチマークであるFaithBenchを紹介する。
その結果, GPT-4o と GPT-3.5-Turbo が最も幻覚が少ないことが判明した。
最高の幻覚検出モデルでさえ、FaithBenchには50%近い精度があり、将来の改善の余地がたくさんあることを示している。
論文 参考訳(メタデータ) (2024-10-17T04:30:46Z) - LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models [13.48296910438554]
現在のマルチモーダル大言語モデル(MLLM)に悩まされる幻覚
実世界のシナリオから得られた20,000以上のサンプルからなる関係幻覚を対象とするベンチマークであるReefknotを紹介する。
3つの異なるタスクに対する比較評価の結果、関係幻覚を緩和する現在のMLLMの能力に重大な欠点があることが判明した。
論文 参考訳(メタデータ) (2024-08-18T10:07:02Z) - ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z) - DiaHalu: A Dialogue-level Hallucination Evaluation Benchmark for Large Language Models [26.289847386286446]
本稿では,対話レベルの幻覚評価ベンチマークDiaHaluを提案する。
収集したトピックをシステムプロンプトに統合し、2つのChatGPT3.5間の対話を促進する。
人間の言語規則に従わない内容を手動で修正し、LLMを再生させ、人間と機械の相互作用のシナリオをシミュレートする。
論文 参考訳(メタデータ) (2024-03-01T15:38:55Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - The Dawn After the Dark: An Empirical Study on Factuality Hallucination
in Large Language Models [134.6697160940223]
幻覚は、大きな言語モデルの信頼できるデプロイには大きな課題となります。
幻覚(検出)の検出方法、LLMが幻覚(ソース)をなぜ検出するのか、そしてそれを緩和するために何ができるか、という3つの重要な疑問がよく研究されるべきである。
本研究は, 幻覚検出, 発生源, 緩和の3つの側面に着目した, LLM幻覚の系統的研究である。
論文 参考訳(メタデータ) (2024-01-06T12:40:45Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。