Fugu-MT 論文翻訳(概要): CRAG -- Comprehensive RAG Benchmark

論文の概要: CRAG -- Comprehensive RAG Benchmark

arxiv url: http://arxiv.org/abs/2406.04744v1
Date: Fri, 7 Jun 2024 08:43:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-10 14:59:58.585170
Title: CRAG -- Comprehensive RAG Benchmark
Title（参考訳）: CRAG -- 包括的なRAGベンチマーク
Authors: Xiao Yang, Kai Sun, Hao Xin, Yushi Sun, Nikita Bhalla, Xiangsen Chen, Sajal Choudhary, Rongze Daniel Gui, Ziran Will Jiang, Ziyu Jiang, Lingkun Kong, Brian Moran, Jiaqi Wang, Yifan Ethan Xu, An Yan, Chenyu Yang, Eting Yuan, Hanwen Zha, Nan Tang, Lei Chen, Nicolas Scheffer, Yue Liu, Nirav Shah, Rakesh Wanga, Anuj Kumar, Wen-tau Yih, Xin Luna Dong,
Abstract要約: Retrieval-Augmented Generation (RAG) は、Large Language Model (LLM) の知識不足を緩和するための有望なソリューションとして最近登場した。既存のRAGデータセットは、現実世界の質問回答(QA)タスクの多様性と動的な性質を適切に表現していない。我々は,Webと知識グラフ(KG)検索をシミュレートする4,409組の質問応答ペアとモックAPIの実際の質問応答ベンチマークである包括的RAGベンチマーク(CRAG)を紹介した。
参考スコア（独自算出の注目度）: 58.15980697921195
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Retrieval-Augmented Generation (RAG) has recently emerged as a promising solution to alleviate Large Language Model (LLM)'s deficiency in lack of knowledge. Existing RAG datasets, however, do not adequately represent the diverse and dynamic nature of real-world Question Answering (QA) tasks. To bridge this gap, we introduce the Comprehensive RAG Benchmark (CRAG), a factual question answering benchmark of 4,409 question-answer pairs and mock APIs to simulate web and Knowledge Graph (KG) search. CRAG is designed to encapsulate a diverse array of questions across five domains and eight question categories, reflecting varied entity popularity from popular to long-tail, and temporal dynamisms ranging from years to seconds. Our evaluation on this benchmark highlights the gap to fully trustworthy QA. Whereas most advanced LLMs achieve <=34% accuracy on CRAG, adding RAG in a straightforward manner improves the accuracy only to 44%. State-of-the-art industry RAG solutions only answer 63% questions without any hallucination. CRAG also reveals much lower accuracy in answering questions regarding facts with higher dynamism, lower popularity, or higher complexity, suggesting future research directions. The CRAG benchmark laid the groundwork for a KDD Cup 2024 challenge, attracting thousands of participants and submissions within the first 50 days of the competition. We commit to maintaining CRAG to serve research communities in advancing RAG solutions and general QA solutions.
Abstract（参考訳）: Retrieval-Augmented Generation (RAG) は、Large Language Model (LLM) の知識不足を緩和するための有望なソリューションとして最近登場した。しかし、既存のRAGデータセットは、現実世界の質問回答(QA)タスクの多様性と動的な性質を適切に表現していない。このギャップを埋めるために、ウェブと知識グラフ(KG)検索をシミュレートする4,409組の質問応答ペアとモックAPIの実際の質問応答ベンチマークである包括的RAGベンチマーク(CRAG)を導入する。 CRAGは5つのドメインと8つの質問カテゴリにまたがる多様な質問をカプセル化するために設計されており、人気からロングテール、時間ダイナミズムまで多岐にわたるエンティティの人気を反映している。このベンチマークに対する評価は、完全に信頼できるQAとのギャップを強調します。ほとんどの高度なLCMはCRAGで<=34%の精度を達成するが、直接的にRAGを追加すると精度は44%に向上する。最先端産業RAGソリューションは、幻覚のない63%の質問にのみ答える。 CRAGはまた、より高いダイナミズム、低い人気、より高い複雑さの事実に関する質問に答える際の精度をはるかに低くし、将来の研究方向性を示唆している。 CRAGベンチマークは、KDDカップ2024の挑戦の土台となり、コンペの最初の50日以内に何千人もの参加者と応募者を惹きつけた。我々は、RAGソリューションと一般的なQAソリューションの進展において、研究コミュニティにサービスを提供するためにCRAGを維持することを約束します。

関連論文リスト

Evaluating Retrieval-Augmented Generation Systems on Unanswerable, Uncheatable, Realistic, Multi-hop Queries [53.99620546358492]
実世界のユースケースでは、複雑なクエリを持つRAGシステムが存在し、関連する情報がコーパスから欠落したり、不完全であったりすることが多い。既存のRAGベンチマークは、マルチホップやスコープ外の質問に対して、現実的なタスクの複雑さを反映することはめったにない。 un$underlinec$heatable, $underliner$ealistic, $underlineu$nanswerable, $underlinem$ulti-hopの自動生成のための最初のパイプラインを提示する。
論文参考訳（メタデータ） (2025-10-13T21:38:04Z)
KERAG: Knowledge-Enhanced Retrieval-Augmented Generation for Advanced Question Answering [26.051374461832964]
検索型拡張生成(RAG)は大規模言語モデル(LLM)における幻覚を緩和する我々はKGをベースとした新しいRAGパイプラインであるKERAGについて述べる。実験の結果、KERAGは最先端のソリューションを約7%上回り、GPT-4o(Tool)を10-21%上回ることがわかった。
論文参考訳（メタデータ） (2025-09-05T00:06:00Z)
From Search to Reasoning: A Five-Level RAG Capability Framework for Enterprise Data [5.336176993332404]
Retrieval-Augmented Generationは、エンタープライズデータに関する質問に答えるための標準パラダイムとして登場した。本稿では,データモダリティとタスクの複雑さに基づいた分類を行うための新しい分類フレームワーク(L1-L5)を提案する。 LangChain、Azure AI Search、OpenAI、Corvic AIの4つの最先端プラットフォームを評価します。
論文参考訳（メタデータ） (2025-08-27T21:43:03Z)
QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering [27.567923098020586]
本稿では,知識集約型VQAのためのクエリ対応動的RAGシステムQA-Dragonを提案する。テキストと画像検索エージェントをハイブリッド化することにより,マルチモーダル,マルチターン,マルチホップ推論をサポートする。 KDDカップ2025におけるメタCRAG-MMチャレンジの枠組みを評価する。
論文参考訳（メタデータ） (2025-08-07T09:32:49Z)
MAO-ARAG: Multi-Agent Orchestration for Adaptive Retrieval-Augmented Generation [35.853052535353775]
質問応答システム(QA)では、応答精度の向上と幻覚の軽減にRAG(Retrieval-Augmented Generation)が重要になっている。マルチエージェントオーケストレーションを利用するMAO-ARAGという適応型RAGフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-01T18:15:22Z)
Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。この調査は両鎖を統一的推論-検索の観点から合成する。
論文参考訳（メタデータ） (2025-07-13T03:29:41Z)
On the Influence of Context Size and Model Choice in Retrieval-Augmented Generation Systems [5.69361786082969]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)の拡張手法として登場した。我々は,様々なコンテキストサイズ,BM25,セマンティック検索を検索として評価し,8つの基本LLMについて検討した。以上の結果から, 最終QA成績は最大15スニペットで着実に改善するが, 停滞あるいは低下がみられた。
論文参考訳（メタデータ） (2025-02-20T17:34:34Z)
HawkBench: Investigating Resilience of RAG Methods on Stratified Information-Seeking Tasks [50.871243190126826]
HawkBenchは、RAGのパフォーマンスを厳格に評価するために設計された、人間ラベル付きマルチドメインベンチマークである。情報探索行動に基づくタスクの階層化により、HawkBenchはRAGシステムが多様なユーザニーズにどのように適応するかを体系的に評価する。
論文参考訳（メタデータ） (2025-02-19T06:33:39Z)
Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文参考訳（メタデータ） (2024-12-16T19:11:55Z)
Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文参考訳（メタデータ） (2024-10-20T22:59:34Z)
RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文参考訳（メタデータ） (2024-10-18T16:11:29Z)
AT-RAG: An Adaptive RAG Model Enhancing Query Efficiency with Topic Filtering and Iterative Reasoning [0.0]
本稿では,効率的な文書検索と推論のためのトピックモデリングを取り入れた新しい多段階RAGAT-RAGを提案する。 BERTopicを用いてクエリにトピックを動的に割り当て,検索精度と効率を向上する。その結果,既存手法に比べて精度,完全性,妥当性が著しく向上した。
論文参考訳（メタデータ） (2024-10-16T01:57:56Z)
Revisiting the Solution of Meta KDD Cup 2024: CRAG [45.217913880930155]
本稿では,Meta KDD CUP 2024: CRAG Comprehensive RAG Benchmark ChallengeにおけるAPEXのソリューションについて述べる。 CRAGベンチマークは、Retrieval-Augmented Generation (RAG)システムで直面する多種多様な動的課題を評価する際に、既存のQAベンチマークの限界に対処する。本稿では,ルーティングに基づく領域と動的適応型RAGパイプラインを提案する。
論文参考訳（メタデータ） (2024-09-09T07:28:14Z)
A Knowledge-Centric Benchmarking Framework and Empirical Study for Retrieval-Augmented Generation [4.359511178431438]
Retrieval-Augmented Generation (RAG)は、検索機構を統合することで生成モデルを強化する。その利点にもかかわらず、RAGは特に現実世界のクエリを効果的に処理する上で、大きな課題に直面している。本稿では,これらの課題に対処する新しいRAGベンチマークを提案する。
論文参考訳（メタデータ） (2024-09-03T03:31:37Z)
RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation [61.14660526363607]
本稿では,検索モジュールと生成モジュールの両方に対して,一連の診断指標を組み込んだ詳細な評価フレームワークであるRAGCheckerを提案する。 RAGCheckerは、他の評価指標よりも、人間の判断との相関が著しく優れている。 RAGCheckerのメトリクスは、より効果的なRAGシステムの開発において研究者や実践者を導くことができる。
論文参考訳（メタデータ） (2024-08-15T10:20:54Z)
RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。 RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文参考訳（メタデータ） (2024-07-19T03:02:51Z)
Retrieval-Augmented Generation for AI-Generated Content: A Survey [38.50754568320154]
このような課題に対処するためのパラダイムとして,レトリーバル拡張生成(RAG)が登場している。 RAGは情報検索プロセスを導入し、利用可能なデータストアから関連オブジェクトを検索することで生成プロセスを強化する。本稿では,RAG手法をAIGCシナリオに統合する既存の取り組みを概観的にレビューする。
論文参考訳（メタデータ） (2024-02-29T18:59:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。