論文の概要: CRAG -- Comprehensive RAG Benchmark
- arxiv url: http://arxiv.org/abs/2406.04744v2
- Date: Fri, 01 Nov 2024 05:30:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 14:32:36.146356
- Title: CRAG -- Comprehensive RAG Benchmark
- Title(参考訳): CRAG -- 包括的なRAGベンチマーク
- Authors: Xiao Yang, Kai Sun, Hao Xin, Yushi Sun, Nikita Bhalla, Xiangsen Chen, Sajal Choudhary, Rongze Daniel Gui, Ziran Will Jiang, Ziyu Jiang, Lingkun Kong, Brian Moran, Jiaqi Wang, Yifan Ethan Xu, An Yan, Chenyu Yang, Eting Yuan, Hanwen Zha, Nan Tang, Lei Chen, Nicolas Scheffer, Yue Liu, Nirav Shah, Rakesh Wanga, Anuj Kumar, Wen-tau Yih, Xin Luna Dong,
- Abstract要約: Retrieval-Augmented Generation (RAG) は、Large Language Model (LLM) の知識不足を緩和するための有望なソリューションとして最近登場した。
既存のRAGデータセットは、現実世界の質問回答(QA)タスクの多様性と動的な性質を適切に表現していない。
このギャップを埋めるために、包括的RAGベンチマーク(CRAG)を導入する。
CRAGは、Webと知識グラフ(KG)検索をシミュレートする4,409組の質問応答ペアとモックAPIの実際の質問応答ベンチマークである。
- 参考スコア(独自算出の注目度): 58.15980697921195
- License:
- Abstract: Retrieval-Augmented Generation (RAG) has recently emerged as a promising solution to alleviate Large Language Model (LLM)'s deficiency in lack of knowledge. Existing RAG datasets, however, do not adequately represent the diverse and dynamic nature of real-world Question Answering (QA) tasks. To bridge this gap, we introduce the Comprehensive RAG Benchmark (CRAG), a factual question answering benchmark of 4,409 question-answer pairs and mock APIs to simulate web and Knowledge Graph (KG) search. CRAG is designed to encapsulate a diverse array of questions across five domains and eight question categories, reflecting varied entity popularity from popular to long-tail, and temporal dynamisms ranging from years to seconds. Our evaluation of this benchmark highlights the gap to fully trustworthy QA. Whereas most advanced LLMs achieve <=34% accuracy on CRAG, adding RAG in a straightforward manner improves the accuracy only to 44%. State-of-the-art industry RAG solutions only answer 63% of questions without any hallucination. CRAG also reveals much lower accuracy in answering questions regarding facts with higher dynamism, lower popularity, or higher complexity, suggesting future research directions. The CRAG benchmark laid the groundwork for a KDD Cup 2024 challenge and attracted thousands of participants and submissions. We commit to maintaining CRAG to serve research communities in advancing RAG solutions and general QA solutions. CRAG is available at https://github.com/facebookresearch/CRAG/.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、Large Language Model (LLM) の知識不足を緩和するための有望なソリューションとして最近登場した。
しかし、既存のRAGデータセットは、現実世界の質問回答(QA)タスクの多様性と動的な性質を適切に表現していない。
このギャップを埋めるために、ウェブと知識グラフ(KG)検索をシミュレートする4,409組の質問応答ペアとモックAPIの実際の質問応答ベンチマークである包括的RAGベンチマーク(CRAG)を導入する。
CRAGは5つのドメインと8つの質問カテゴリにまたがる多様な質問をカプセル化するために設計されており、人気からロングテール、時間ダイナミズムまで多岐にわたるエンティティの人気を反映している。
このベンチマークの評価は、完全に信頼できるQAとのギャップを浮き彫りにしている。
ほとんどの高度なLCMはCRAGで<=34%の精度を達成するが、直接的にRAGを追加すると精度は44%に向上する。
最先端産業RAGソリューションは、幻覚のない63%の質問にのみ答える。
CRAGはまた、より高いダイナミズム、低い人気、より高い複雑さの事実に関する質問に答える際の精度をはるかに低くし、将来の研究方向性を示唆している。
CRAGベンチマークはKDDカップ2024への挑戦の基礎となり、何千人もの参加者と応募者を惹きつけた。
我々は、RAGソリューションと一般的なQAソリューションの進展において、研究コミュニティにサービスを提供するためにCRAGを維持することを約束します。
CRAGはhttps://github.com/facebookresearch/CRAG/.comで入手できる。
関連論文リスト
- On the Influence of Context Size and Model Choice in Retrieval-Augmented Generation Systems [5.69361786082969]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)の拡張手法として登場した。
我々は,様々なコンテキストサイズ,BM25,セマンティック検索を検索として評価し,8つの基本LLMについて検討した。
以上の結果から, 最終QA成績は最大15スニペットで着実に改善するが, 停滞あるいは低下がみられた。
論文 参考訳(メタデータ) (2025-02-20T17:34:34Z) - HawkBench: Investigating Resilience of RAG Methods on Stratified Information-Seeking Tasks [50.871243190126826]
HawkBenchは、RAGのパフォーマンスを厳格に評価するために設計された、人間ラベル付きマルチドメインベンチマークである。
情報探索行動に基づくタスクの階層化により、HawkBenchはRAGシステムが多様なユーザニーズにどのように適応するかを体系的に評価する。
論文 参考訳(メタデータ) (2025-02-19T06:33:39Z) - Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。
我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文 参考訳(メタデータ) (2024-12-16T19:11:55Z) - ScopeQA: A Framework for Generating Out-of-Scope Questions for RAG [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,多様な境界線外質問を効率よく生成する,ガイド付き幻覚に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - AT-RAG: An Adaptive RAG Model Enhancing Query Efficiency with Topic Filtering and Iterative Reasoning [0.0]
本稿では,効率的な文書検索と推論のためのトピックモデリングを取り入れた新しい多段階RAGAT-RAGを提案する。
BERTopicを用いてクエリにトピックを動的に割り当て,検索精度と効率を向上する。
その結果,既存手法に比べて精度,完全性,妥当性が著しく向上した。
論文 参考訳(メタデータ) (2024-10-16T01:57:56Z) - Revisiting the Solution of Meta KDD Cup 2024: CRAG [45.217913880930155]
本稿では,Meta KDD CUP 2024: CRAG Comprehensive RAG Benchmark ChallengeにおけるAPEXのソリューションについて述べる。
CRAGベンチマークは、Retrieval-Augmented Generation (RAG)システムで直面する多種多様な動的課題を評価する際に、既存のQAベンチマークの限界に対処する。
本稿では,ルーティングに基づく領域と動的適応型RAGパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-09T07:28:14Z) - RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。
RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。
最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文 参考訳(メタデータ) (2024-07-19T03:02:51Z) - Retrieval-Augmented Generation for AI-Generated Content: A Survey [38.50754568320154]
このような課題に対処するためのパラダイムとして,レトリーバル拡張生成(RAG)が登場している。
RAGは情報検索プロセスを導入し、利用可能なデータストアから関連オブジェクトを検索することで生成プロセスを強化する。
本稿では,RAG手法をAIGCシナリオに統合する既存の取り組みを概観的にレビューする。
論文 参考訳(メタデータ) (2024-02-29T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。