Fugu-MT 論文翻訳(概要): RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models

論文の概要: RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models

arxiv url: http://arxiv.org/abs/2401.00396v1
Date: Sun, 31 Dec 2023 04:43:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 17:43:48.817365
Title: RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models
Title（参考訳）: RAGTruth: 信頼できる検索強化言語モデルを開発するための幻覚コーパス
Authors: Yuanhao Wu, Juno Zhu, Siliang Xu, Kashun Shum, Cheng Niu, Randy Zhong, Juntong Song, Tong Zhang
Abstract要約: 大規模言語モデル(LLM)の幻覚を緩和する主要な手法は、検索拡張世代(RAG)である。本稿では,各ドメインにおける単語レベルの幻覚の分析に適したコーパスであるRAGTruthについて述べる。
参考スコア（独自算出の注目度）: 9.821721282422603
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Retrieval-augmented generation (RAG) has become a main technique for alleviating hallucinations in large language models (LLMs). Despite the integration of RAG, LLMs may still present unsupported or contradictory claims to the retrieved contents. In order to develop effective hallucination prevention strategies under RAG, it is important to create benchmark datasets that can measure the extent of hallucination. This paper presents RAGTruth, a corpus tailored for analyzing word-level hallucinations in various domains and tasks within the standard RAG frameworks for LLM applications. RAGTruth comprises nearly 18,000 naturally generated responses from diverse LLMs using RAG. These responses have undergone meticulous manual annotations at both the individual cases and word levels, incorporating evaluations of hallucination intensity. We not only benchmark hallucination frequencies across different LLMs, but also critically assess the effectiveness of several existing hallucination detection methodologies. Furthermore, we show that using a high-quality dataset such as RAGTruth, it is possible to finetune a relatively small LLM and achieve a competitive level of performance in hallucination detection when compared to the existing prompt-based approaches using state-of-the-art large language models such as GPT-4.
Abstract（参考訳）: Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)における幻覚を緩和する主要な技術となっている。 RAGが統合されているにもかかわらず、LLMは検索された内容に対してまだサポートされていない、あるいは矛盾している主張をすることができる。 RAGの下で効果的な幻覚予防戦略を開発するためには,幻覚の程度を計測できるベンチマークデータセットを作成することが重要である。本稿では,LLMアプリケーションのための標準RAGフレームワーク内で,様々なドメインやタスクにおける単語レベルの幻覚を解析するためのコーパスであるRAGTruthについて述べる。 RAGTruth は、RAG を用いて様々な LLM から18,000 個の自然発生応答を持つ。これらの反応は個々の症例と単語レベルの両方で微妙な手動アノテーションを受けており、幻覚強度の評価を取り入れている。我々は、異なるLLMの幻覚周波数をベンチマークするだけでなく、既存の幻覚検出手法の有効性を批判的に評価する。さらに,ragtruthのような高品質なデータセットを使用することで,gpt-4のような最先端の大規模言語モデルを用いた既存のプロンプトベースアプローチと比較して,比較的小さなllmを微調整し,幻覚検出における競争力レベルを達成することが可能であることを示す。

関連論文リスト

MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文参考訳（メタデータ） (2025-05-30T05:54:36Z)
Attention-guided Self-reflection for Zero-shot Hallucination Detection in Large Language Models [20.175106988135454]
大規模言語モデル(LLM)におけるゼロショット幻覚検出のためのAGSER(Attention-Guided SElf-Reflection)アプローチを提案する。 AGSER法は注意力を利用して、入力クエリを注意クエリと非注意クエリに分類する。幻覚を検出する効果に加えて、AGSERは計算オーバーヘッドを著しく減らし、LSMを通過する3つのトークンと2つのトークンを使用する必要がある。
論文参考訳（メタデータ） (2025-01-17T07:30:01Z)
Addressing Hallucinations with RAG and NMISS in Italian Healthcare LLM Chatbots [0.0]
大規模言語モデル(LLM)の幻覚に対する検出と緩和を併用する NMISS(Negative Missing Information Scoring System)を導入して検出を行う間、質問応答型検索拡張生成(RAG)フレームワークで緩和を実現する。この組み合わせアプローチは、LLMにおける幻覚の低減とより正確な評価に関する新たな洞察を提供する。
論文参考訳（メタデータ） (2024-12-05T15:11:12Z)
Investigating the Role of Prompting and External Tools in Hallucination Rates of Large Language Models [0.0]
LLM(Large Language Models)は、人間の可読テキストの広範なコーパスに基づいて訓練された強力な計算モデルであり、汎用的な言語理解と生成を可能にする。これらの成功にもかかわらず、LLMは幻覚と呼ばれる不正確さをしばしば生み出す。本稿では,LLMにおける幻覚の低減を目的とした,異なるプロンプト戦略とフレームワークの実証評価を行う。
論文参考訳（メタデータ） (2024-10-25T08:34:53Z)
ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models [15.156359255401812]
本稿では,大規模言語モデル(MLLM)におけるオブジェクト存在幻覚を評価するためのオープンセット動的プロトコルODEを紹介する。本フレームワークでは,実単語概念間の関連をモデル化し,汎用シナリオとドメイン固有シナリオの両方に新たなサンプルを生成する。実験の結果, MLLMはODE生成試料よりも高い幻覚率を示し, データ汚染を効果的に回避できることがわかった。
論文参考訳（メタデータ） (2024-09-14T05:31:29Z)
LRP4RAG: Detecting Hallucinations in Retrieval-Augmented Generation via Layer-wise Relevance Propagation [3.3762582927663063]
本稿では,大規模言語モデル(LLM)における幻覚検出手法であるLPP4RAGを提案する。我々の知る限り、RAG幻覚の検出にLPPを用いたのは今回が初めてです。
論文参考訳（メタデータ） (2024-08-28T04:44:43Z)
ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-05T17:56:38Z)
Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文参考訳（メタデータ） (2024-07-04T18:47:42Z)
HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild [41.86776426516293]
幻覚は、臨界領域における大きな言語モデル(LLM)の信頼性に重大な課題をもたらす。野生におけるLSM幻覚を評価するために特別に設計された最初のベンチマークであるHaluEval-Wildを紹介する。
論文参考訳（メタデータ） (2024-03-07T08:25:46Z)
Alleviating Hallucinations of Large Language Models through Induced Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文参考訳（メタデータ） (2023-12-25T12:32:49Z)
AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination Evaluation [58.19101663976327]
マルチモーダル大規模言語モデル(MLLM)は幻覚の重要な課題に直面する。 MLLMの幻覚を評価することは、モデルの改善と実践的なアプリケーション展開においてますます重要になっている。生成タスクと識別タスクの両方を評価するために, LLMフリーな多次元ベンチマークAMBERを提案する。
論文参考訳（メタデータ） (2023-11-13T15:25:42Z)
AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文参考訳（メタデータ） (2023-09-30T05:20:02Z)
Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。 RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文参考訳（メタデータ） (2023-09-04T08:28:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。