論文の概要: CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models
- arxiv url: http://arxiv.org/abs/2401.17043v3
- Date: Mon, 15 Jul 2024 11:52:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 02:05:02.747464
- Title: CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models
- Title(参考訳): CRUD-RAG: 大規模言語モデルの検索強化のための総合的な中国語ベンチマーク
- Authors: Yuanjie Lyu, Zhiyu Li, Simin Niu, Feiyu Xiong, Bo Tang, Wenjin Wang, Hao Wu, Huanyong Liu, Tong Xu, Enhong Chen,
- Abstract要約: Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
- 参考スコア(独自算出の注目度): 49.16989035566899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) is a technique that enhances the capabilities of large language models (LLMs) by incorporating external knowledge sources. This method addresses common LLM limitations, including outdated information and the tendency to produce inaccurate "hallucinated" content. However, the evaluation of RAG systems is challenging, as existing benchmarks are limited in scope and diversity. Most of the current benchmarks predominantly assess question-answering applications, overlooking the broader spectrum of situations where RAG could prove advantageous. Moreover, they only evaluate the performance of the LLM component of the RAG pipeline in the experiments, and neglect the influence of the retrieval component and the external knowledge database. To address these issues, this paper constructs a large-scale and more comprehensive benchmark, and evaluates all the components of RAG systems in various RAG application scenarios. Specifically, we have categorized the range of RAG applications into four distinct types-Create, Read, Update, and Delete (CRUD), each representing a unique use case. "Create" refers to scenarios requiring the generation of original, varied content. "Read" involves responding to intricate questions in knowledge-intensive situations. "Update" focuses on revising and rectifying inaccuracies or inconsistencies in pre-existing texts. "Delete" pertains to the task of summarizing extensive texts into more concise forms. For each of these CRUD categories, we have developed comprehensive datasets to evaluate the performance of RAG systems. We also analyze the effects of various components of the RAG system, such as the retriever, the context length, the knowledge base construction, and the LLM. Finally, we provide useful insights for optimizing the RAG technology for different scenarios.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
この方法は、古い情報や不正確な「ハロゲン化」コンテンツを生成する傾向を含む、一般的なLCM制限に対処する。
しかしながら、既存のベンチマークはスコープと多様性に制限があるため、RAGシステムの評価は困難である。
現在のベンチマークのほとんどは、RAGが有利であることを証明できるより広い範囲の状況を見越して、質問応答アプリケーションを評価している。
さらに、実験では、RAGパイプラインのLLMコンポーネントの性能のみを評価し、検索コンポーネントと外部知識データベースの影響を無視する。
これらの課題に対処するため,大規模で包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
具体的には、RAGアプリケーションの範囲を4つの異なるタイプ(Create、Read、Update、Delete(CRUD))に分類しました。
クリート(Create)とは、オリジナルで多様なコンテンツの生成を必要とするシナリオのこと。
読み」とは、知識集約的な状況において複雑な質問に答えることである。
アップデート」は、既存のテキストにおける不正確さや不整合の修正と修正に焦点を当てている。
『削除』は、広義のテキストをより簡潔な形式に要約する作業である。
これらのCRUDカテゴリのそれぞれに対して、RAGシステムの性能を評価するための包括的なデータセットを開発しました。
また,レトリバー,コンテキスト長,知識ベース構築,LLMなど,RAGシステムの様々な構成要素の影響も分析する。
最後に、異なるシナリオに対してRAG技術を最適化するのに有用な洞察を提供する。
関連論文リスト
- CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation [68.81271028921647]
我々は,現実的なマルチターン対話環境におけるRAGシステム評価のためのベンチマークであるCORALを紹介する。
コラルにはウィキペディアから自動的に派生した多様な情報検索会話が含まれている。
対話型RAGの3つの中核的なタスク、すなわち、通過検索、応答生成、および引用ラベリングをサポートする。
論文 参考訳(メタデータ) (2024-10-30T15:06:32Z) - CoFE-RAG: A Comprehensive Full-chain Evaluation Framework for Retrieval-Augmented Generation with Enhanced Data Diversity [23.48167670445722]
Retrieval-Augmented Generation (RAG) は、外部知識ソースから取得したコンテキストの助けを借りて、より正確で信頼性の高い回答を生成することを目的としている。
これらのシステムの評価は, 以下の問題により, 依然として重要な研究領域である。
RAGパイプライン全体にわたって徹底的な評価を容易にするために,包括的全チェーン評価(CoFE-RAG)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-16T05:20:32Z) - Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation [72.70046559930555]
本稿では,複雑なQAタスクに対する適応ノート拡張RAG(Adaptive Note-Enhanced RAG)と呼ばれる汎用RAGアプローチを提案する。
具体的には、Adaptive-Noteは、知識の成長に関する包括的な視点を導入し、ノート形式で新しい情報を反復的に収集する。
さらに,適切な知識探索を促進するために,適応的な音符ベースの停止探索戦略を用いて,「何を検索し,いつ停止するか」を判断する。
論文 参考訳(メタデータ) (2024-10-11T14:03:29Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - BERGEN: A Benchmarking Library for Retrieval-Augmented Generation [26.158785168036662]
Retrieval-Augmented Generationは、外部知識による大規模言語モデルの拡張を可能にする。
一貫性のないベンチマークは、アプローチを比較し、パイプライン内の各コンポーネントの影響を理解する上で大きな課題となる。
本研究では,RAGを体系的に評価するための基礎となるベストプラクティスと,RAG実験を標準化した再現可能な研究用ライブラリであるBERGENについて検討する。
論文 参考訳(メタデータ) (2024-07-01T09:09:27Z) - Multi-Head RAG: Solving Multi-Aspect Problems with LLMs [13.638439488923671]
検索拡張生成(RAG)は大規模言語モデル(LLM)の能力を向上させる
既存のRAGソリューションは、実質的に異なる内容の複数のドキュメントを取得する必要がある可能性のあるクエリに焦点を当てていない。
本稿では,このギャップをシンプルかつ強力なアイデアで解決する新しい手法として,MRAG(Multi-Head RAG)を提案する。
論文 参考訳(メタデータ) (2024-06-07T16:59:38Z) - Evaluation of Retrieval-Augmented Generation: A Survey [13.633909177683462]
本稿では,Retrieval-Augmented Generation (RAG)システムの評価とベンチマークについて概観する。
具体的には、検索・生成要素の定量化指標(関連性、正確性、忠実性など)について検討・比較する。
次に、様々なデータセットとメトリクスを分析し、現在のベンチマークの限界について議論し、RAGベンチマークの分野を前進させる潜在的な方向性を提案する。
論文 参考訳(メタデータ) (2024-05-13T02:33:25Z) - RAGGED: Towards Informed Design of Retrieval Augmented Generation Systems [51.171355532527365]
Retrieval-augmented Generation (RAG) は言語モデル(LM)の性能を大幅に向上させる
RAGGEDは、様々な文書ベースの質問応答タスクにわたるRAG構成を分析するためのフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T02:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。