論文の概要: CRAG -- Comprehensive RAG Benchmark
- arxiv url: http://arxiv.org/abs/2406.04744v2
- Date: Fri, 01 Nov 2024 05:30:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 14:32:36.146356
- Title: CRAG -- Comprehensive RAG Benchmark
- Title(参考訳): CRAG -- 包括的なRAGベンチマーク
- Authors: Xiao Yang, Kai Sun, Hao Xin, Yushi Sun, Nikita Bhalla, Xiangsen Chen, Sajal Choudhary, Rongze Daniel Gui, Ziran Will Jiang, Ziyu Jiang, Lingkun Kong, Brian Moran, Jiaqi Wang, Yifan Ethan Xu, An Yan, Chenyu Yang, Eting Yuan, Hanwen Zha, Nan Tang, Lei Chen, Nicolas Scheffer, Yue Liu, Nirav Shah, Rakesh Wanga, Anuj Kumar, Wen-tau Yih, Xin Luna Dong,
- Abstract要約: Retrieval-Augmented Generation (RAG) は、Large Language Model (LLM) の知識不足を緩和するための有望なソリューションとして最近登場した。
既存のRAGデータセットは、現実世界の質問回答(QA)タスクの多様性と動的な性質を適切に表現していない。
このギャップを埋めるために、包括的RAGベンチマーク(CRAG)を導入する。
CRAGは、Webと知識グラフ(KG)検索をシミュレートする4,409組の質問応答ペアとモックAPIの実際の質問応答ベンチマークである。
- 参考スコア(独自算出の注目度): 58.15980697921195
- License:
- Abstract: Retrieval-Augmented Generation (RAG) has recently emerged as a promising solution to alleviate Large Language Model (LLM)'s deficiency in lack of knowledge. Existing RAG datasets, however, do not adequately represent the diverse and dynamic nature of real-world Question Answering (QA) tasks. To bridge this gap, we introduce the Comprehensive RAG Benchmark (CRAG), a factual question answering benchmark of 4,409 question-answer pairs and mock APIs to simulate web and Knowledge Graph (KG) search. CRAG is designed to encapsulate a diverse array of questions across five domains and eight question categories, reflecting varied entity popularity from popular to long-tail, and temporal dynamisms ranging from years to seconds. Our evaluation of this benchmark highlights the gap to fully trustworthy QA. Whereas most advanced LLMs achieve <=34% accuracy on CRAG, adding RAG in a straightforward manner improves the accuracy only to 44%. State-of-the-art industry RAG solutions only answer 63% of questions without any hallucination. CRAG also reveals much lower accuracy in answering questions regarding facts with higher dynamism, lower popularity, or higher complexity, suggesting future research directions. The CRAG benchmark laid the groundwork for a KDD Cup 2024 challenge and attracted thousands of participants and submissions. We commit to maintaining CRAG to serve research communities in advancing RAG solutions and general QA solutions. CRAG is available at https://github.com/facebookresearch/CRAG/.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、Large Language Model (LLM) の知識不足を緩和するための有望なソリューションとして最近登場した。
しかし、既存のRAGデータセットは、現実世界の質問回答(QA)タスクの多様性と動的な性質を適切に表現していない。
このギャップを埋めるために、ウェブと知識グラフ(KG)検索をシミュレートする4,409組の質問応答ペアとモックAPIの実際の質問応答ベンチマークである包括的RAGベンチマーク(CRAG)を導入する。
CRAGは5つのドメインと8つの質問カテゴリにまたがる多様な質問をカプセル化するために設計されており、人気からロングテール、時間ダイナミズムまで多岐にわたるエンティティの人気を反映している。
このベンチマークの評価は、完全に信頼できるQAとのギャップを浮き彫りにしている。
ほとんどの高度なLCMはCRAGで<=34%の精度を達成するが、直接的にRAGを追加すると精度は44%に向上する。
最先端産業RAGソリューションは、幻覚のない63%の質問にのみ答える。
CRAGはまた、より高いダイナミズム、低い人気、より高い複雑さの事実に関する質問に答える際の精度をはるかに低くし、将来の研究方向性を示唆している。
CRAGベンチマークはKDDカップ2024への挑戦の基礎となり、何千人もの参加者と応募者を惹きつけた。
我々は、RAGソリューションと一般的なQAソリューションの進展において、研究コミュニティにサービスを提供するためにCRAGを維持することを約束します。
CRAGはhttps://github.com/facebookresearch/CRAG/.comで入手できる。
関連論文リスト
- Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。
このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。
すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文 参考訳(メタデータ) (2024-10-20T22:59:34Z) - RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - AT-RAG: An Adaptive RAG Model Enhancing Query Efficiency with Topic Filtering and Iterative Reasoning [0.0]
本稿では,効率的な文書検索と推論のためのトピックモデリングを取り入れた新しい多段階RAGAT-RAGを提案する。
BERTopicを用いてクエリにトピックを動的に割り当て,検索精度と効率を向上する。
その結果,既存手法に比べて精度,完全性,妥当性が著しく向上した。
論文 参考訳(メタデータ) (2024-10-16T01:57:56Z) - Revisiting the Solution of Meta KDD Cup 2024: CRAG [45.217913880930155]
本稿では,Meta KDD CUP 2024: CRAG Comprehensive RAG Benchmark ChallengeにおけるAPEXのソリューションについて述べる。
CRAGベンチマークは、Retrieval-Augmented Generation (RAG)システムで直面する多種多様な動的課題を評価する際に、既存のQAベンチマークの限界に対処する。
本稿では,ルーティングに基づく領域と動的適応型RAGパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-09T07:28:14Z) - A Knowledge-Centric Benchmarking Framework and Empirical Study for Retrieval-Augmented Generation [4.359511178431438]
Retrieval-Augmented Generation (RAG)は、検索機構を統合することで生成モデルを強化する。
その利点にもかかわらず、RAGは特に現実世界のクエリを効果的に処理する上で、大きな課題に直面している。
本稿では,これらの課題に対処する新しいRAGベンチマークを提案する。
論文 参考訳(メタデータ) (2024-09-03T03:31:37Z) - RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation [61.14660526363607]
本稿では,検索モジュールと生成モジュールの両方に対して,一連の診断指標を組み込んだ詳細な評価フレームワークであるRAGCheckerを提案する。
RAGCheckerは、他の評価指標よりも、人間の判断との相関が著しく優れている。
RAGCheckerのメトリクスは、より効果的なRAGシステムの開発において研究者や実践者を導くことができる。
論文 参考訳(メタデータ) (2024-08-15T10:20:54Z) - RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。
RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。
最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文 参考訳(メタデータ) (2024-07-19T03:02:51Z) - Retrieval-Augmented Generation for AI-Generated Content: A Survey [38.50754568320154]
このような課題に対処するためのパラダイムとして,レトリーバル拡張生成(RAG)が登場している。
RAGは情報検索プロセスを導入し、利用可能なデータストアから関連オブジェクトを検索することで生成プロセスを強化する。
本稿では,RAG手法をAIGCシナリオに統合する既存の取り組みを概観的にレビューする。
論文 参考訳(メタデータ) (2024-02-29T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。