論文の概要: Benchmarking LLM Faithfulness in RAG with Evolving Leaderboards
- arxiv url: http://arxiv.org/abs/2505.04847v1
- Date: Wed, 07 May 2025 22:50:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.699226
- Title: Benchmarking LLM Faithfulness in RAG with Evolving Leaderboards
- Title(参考訳): リーダボードを進化させたRAGにおけるLCMの忠実度ベンチマーク
- Authors: Manveer Singh Tamber, Forrest Sheng Bao, Chenyu Xu, Ge Luo, Suleman Kazi, Minseok Bae, Miaoran Li, Ofer Mendelevitch, Renyi Qu, Jimmy Lin,
- Abstract要約: 本稿では,要約課題に焦点をあてて幻覚を測定するための取り組みについて述べる。
Hughes Hallucination Evaluation Model(HHEM)に基づくVectaraの既存のLLM幻覚リーダーボードについて論じる。
これらの制約に対処するため,少人数のヒト幻覚アノテーションでガイドされたLPM-as-a-judgeアプローチであるFaithJudgeを提案する。
- 参考スコア(独自算出の注目度): 34.14529094908449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucinations remain a persistent challenge for LLMs. RAG aims to reduce hallucinations by grounding responses in contexts. However, even when provided context, LLMs still frequently introduce unsupported information or contradictions. This paper presents our efforts to measure LLM hallucinations with a focus on summarization tasks, assessing how often various LLMs introduce hallucinations when summarizing documents. We discuss Vectara's existing LLM hallucination leaderboard, based on the Hughes Hallucination Evaluation Model (HHEM). While HHEM and Vectara's Hallucination Leaderboard have garnered great research interest, we examine challenges faced by HHEM and current hallucination detection methods by analyzing the effectiveness of these methods on existing hallucination datasets. To address these limitations, we propose FaithJudge, an LLM-as-a-judge approach guided by few-shot human hallucination annotations, which substantially improves automated LLM hallucination evaluation over current methods. We introduce an enhanced hallucination leaderboard centered on FaithJudge, alongside our current hallucination leaderboard, enabling more reliable benchmarking of LLMs for hallucinations in RAG.
- Abstract(参考訳): 幻覚は依然としてLLMにとって永続的な課題である。
RAGは、コンテキスト内の応答をグラウンド化することで幻覚を減らすことを目的としている。
しかし、たとえ提供された状況であっても、LLMはサポートされていない情報や矛盾を頻繁に導入する。
本稿では, 文書要約における幻覚の出現頻度を評価するため, 要約タスクに着目して, LLMの幻覚を計測する取り組みについて述べる。
本稿では,Hughes Hallucination Evaluation Model (HHEM)に基づいて,Vectaraの既存のLLM幻覚リーダーボードについて論じる。
HHEMとVectara's Hallucination Leaderboardは大きな研究関心を集めているが,HHEMと現在の幻覚検出法が直面する課題は,これらの手法が既存の幻覚データセットに与える影響を分析して検討している。
これらの制約に対処するため,本研究では,LLM-as-a-judgeアプローチであるFaithJudgeを提案する。
本稿では、現在の幻覚リーダーボードとともに、FithJudgeを中心とした幻覚リーダーボードを導入し、RAGにおける幻覚のためのLCMのより信頼性の高いベンチマークを可能にする。
関連論文リスト
- A Survey on Hallucination in Large Vision-Language Models [18.540878498840435]
LVLM(Large Vision-Language Models)は、実践的な実装の可能性から、AIの世界において注目を集めている。
しかし,「幻覚」は,現実の視覚的内容とそれに対応するテキスト生成のミスアライメントが,LVLMを活用する上で大きな課題となる。
我々は,LVLM関連幻覚を解明し,今後の緩和を促進するために検討する。
論文 参考訳(メタデータ) (2024-02-01T00:33:21Z) - The Dawn After the Dark: An Empirical Study on Factuality Hallucination
in Large Language Models [134.6697160940223]
幻覚は、大きな言語モデルの信頼できるデプロイには大きな課題となります。
幻覚(検出)の検出方法、LLMが幻覚(ソース)をなぜ検出するのか、そしてそれを緩和するために何ができるか、という3つの重要な疑問がよく研究されるべきである。
本研究は, 幻覚検出, 発生源, 緩和の3つの側面に着目した, LLM幻覚の系統的研究である。
論文 参考訳(メタデータ) (2024-01-06T12:40:45Z) - A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions [40.79317187623401]
大規模言語モデル(LLM)の出現は、自然言語処理(NLP)において大きなブレークスルーとなった。
LLMは幻覚を起こす傾向があり、可視だが非現実的な内容を生成する。
この現象は、実世界の情報検索システムにおけるLCMの信頼性に対する重大な懸念を引き起こす。
論文 参考訳(メタデータ) (2023-11-09T09:25:37Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large
Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z) - Evaluation and Analysis of Hallucination in Large Vision-Language Models [49.19829480199372]
LVLM(Large Vision-Language Models)は近年大きな成功を収めている。
LVLMは今でも幻覚に悩まされている。
幻覚とは、視覚入力に存在しないLVLMの応答の情報を指す。
論文 参考訳(メタデータ) (2023-08-29T08:51:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。