論文の概要: LiveRAG: A diverse Q&A dataset with varying difficulty level for RAG evaluation
- arxiv url: http://arxiv.org/abs/2511.14531v1
- Date: Tue, 18 Nov 2025 14:34:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.156208
- Title: LiveRAG: A diverse Q&A dataset with varying difficulty level for RAG evaluation
- Title(参考訳): LiveRAG:RAG評価の難易度が異なる多様なQ&Aデータセット
- Authors: David Carmel, Simone Filice, Guy Horowitz, Yoelle Maarek, Alex Shtoff, Oren Somekh, Ran Tavory,
- Abstract要約: 我々は、RAGベースのQ&Aシステムの体系的評価を支援するために設計された895の合成質問と回答のデータセットであるLiveRAGベンチマークを紹介する。
この合成ベンチマークは、SIGIR'2025 LiveRAG Challengeで使用されるもので、競争相手は厳格な時間制約の下で評価された。
我々の分析では、ベンチマークの多様性、難易度の範囲、システム機能間の差別化におけるそれらの有用性について強調している。
- 参考スコア(独自算出の注目度): 12.341210252539776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With Retrieval Augmented Generation (RAG) becoming more and more prominent in generative AI solutions, there is an emerging need for systematically evaluating their effectiveness. We introduce the LiveRAG benchmark, a publicly available dataset of 895 synthetic questions and answers designed to support systematic evaluation of RAG-based Q&A systems. This synthetic benchmark is derived from the one used during the SIGIR'2025 LiveRAG Challenge, where competitors were evaluated under strict time constraints. It is augmented with information that was not made available to competitors during the Challenge, such as the ground-truth answers, together with their associated supporting claims which were used for evaluating competitors' answers. In addition, each question is associated with estimated difficulty and discriminability scores, derived from applying an Item Response Theory model to competitors' responses. Our analysis highlights the benchmark's questions diversity, the wide range of their difficulty levels, and their usefulness in differentiating between system capabilities. The LiveRAG benchmark will hopefully help the community advance RAG research, conduct systematic evaluation, and develop more robust Q&A systems.
- Abstract(参考訳): Retrieval Augmented Generation(RAG)は、ジェネレーティブAIソリューションにおいてますます注目されるようになり、その効果を体系的に評価する必要性が高まっている。
我々は、RAGベースのQ&Aシステムの体系的評価を支援するように設計された895の合成質問と回答のデータセットであるLiveRAGベンチマークを紹介する。
この合成ベンチマークは、SIGIR'2025 LiveRAG Challengeで使用されるもので、競争相手は厳格な時間制約の下で評価された。
挑戦期間中に競技者が入手できなかった情報、例えば真剣な回答、そして競技者の回答を評価するために使用された彼らのサポートクレームが強化されている。
さらに、各質問は、競合相手の反応にアイテム反応理論モデルを適用することから、推定難易度と識別可能性スコアに関連付けられている。
我々の分析では、ベンチマークの多様性、難易度の範囲、システム機能間の差別化におけるそれらの有用性について強調している。
LiveRAGベンチマークは、コミュニティがRAG研究を前進させ、体系的な評価を行い、より堅牢なQ&Aシステムを開発するのに役立つことを期待している。
関連論文リスト
- Diagnosing and Addressing Pitfalls in KG-RAG Datasets: Toward More Reliable Benchmarking [63.84117489519164]
知識グラフ質問 回答システムは、複雑なマルチホップ推論を評価するために高品質なベンチマークに依存している。
広く使われているにもかかわらず、WebQSPやCWQのような一般的なデータセットは、重要な品質問題に悩まされている。
我々はこれらの落とし穴を体系的に解決するLLM-in-the-loopフレームワークであるKGQAGenを紹介する。
本研究は,KGQA評価を推し進めるスケーラブルなフレームワークとして,より厳密なベンチマーク構築とKGQAGenの位置づけを提唱する。
論文 参考訳(メタデータ) (2025-05-29T14:44:52Z) - Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。
我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文 参考訳(メタデータ) (2024-12-16T19:11:55Z) - An Adaptive Framework for Generating Systematic Explanatory Answer in Online Q&A Platforms [62.878616839799776]
質問応答(QA)性能を向上させるために設計された,革新的なフレームワークであるSynthRAGを提案する。
SynthRAGは動的コンテンツの構造化に適応的なアウトラインを用いることで従来のモデルを改善する。
Zhihuプラットフォーム上のオンラインデプロイメントでは、SynthRAGの回答が注目すべきユーザエンゲージメントを実現していることが明らかになった。
論文 参考訳(メタデータ) (2024-10-23T09:14:57Z) - CRAG -- Comprehensive RAG Benchmark [58.15980697921195]
Retrieval-Augmented Generation (RAG) は、Large Language Model (LLM) の知識不足を緩和するための有望なソリューションとして最近登場した。
既存のRAGデータセットは、現実世界の質問回答(QA)タスクの多様性と動的な性質を適切に表現していない。
このギャップを埋めるために、包括的RAGベンチマーク(CRAG)を導入する。
CRAGは、Webと知識グラフ(KG)検索をシミュレートする4,409組の質問応答ペアとモックAPIの実際の質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-06-07T08:43:07Z) - Evaluation of Retrieval-Augmented Generation: A Survey [13.633909177683462]
本稿では,Retrieval-Augmented Generation (RAG)システムの評価とベンチマークについて概観する。
具体的には、検索・生成要素の定量化指標(関連性、正確性、忠実性など)について検討・比較する。
次に、様々なデータセットとメトリクスを分析し、現在のベンチマークの限界について議論し、RAGベンチマークの分野を前進させる潜在的な方向性を提案する。
論文 参考訳(メタデータ) (2024-05-13T02:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。