論文の概要: CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented
Generation of Large Language Models
- arxiv url: http://arxiv.org/abs/2401.17043v2
- Date: Mon, 19 Feb 2024 03:14:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 03:07:11.123706
- Title: CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented
Generation of Large Language Models
- Title(参考訳): CRUD-RAG:大規模言語モデルの検索強化のための総合的な中国語ベンチマーク
- Authors: Yuanjie Lyu, Zhiyu Li, Simin Niu, Feiyu Xiong, Bo Tang, Wenjin Wang,
Hao Wu, Huanyong Liu, Tong Xu, Enhong Chen, Yi Luo, Peng Cheng, Haiying Deng,
Zhonghao Wang, Zijia Lu
- Abstract要約: Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
- 参考スコア(独自算出の注目度): 55.47070014913373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) is a technique that enhances the
capabilities of large language models (LLMs) by incorporating external
knowledge sources. This method addresses common LLM limitations, including
outdated information and the tendency to produce inaccurate "hallucinated"
content. However, the evaluation of RAG systems is challenging, as existing
benchmarks are limited in scope and diversity. Most of the current benchmarks
predominantly assess question-answering applications, overlooking the broader
spectrum of situations where RAG could prove advantageous. Moreover, they only
evaluate the performance of the LLM component of the RAG pipeline in the
experiments, and neglect the influence of the retrieval component and the
external knowledge database. To address these issues, this paper constructs a
large-scale and more comprehensive benchmark, and evaluates all the components
of RAG systems in various RAG application scenarios. Specifically, we have
categorized the range of RAG applications into four distinct types-Create,
Read, Update, and Delete (CRUD), each representing a unique use case. "Create"
refers to scenarios requiring the generation of original, varied content.
"Read" involves responding to intricate questions in knowledge-intensive
situations. "Update" focuses on revising and rectifying inaccuracies or
inconsistencies in pre-existing texts. "Delete" pertains to the task of
summarizing extensive texts into more concise forms. For each of these CRUD
categories, we have developed comprehensive datasets to evaluate the
performance of RAG systems. We also analyze the effects of various components
of the RAG system, such as the retriever, the context length, the knowledge
base construction, and the LLM. Finally, we provide useful insights for
optimizing the RAG technology for different scenarios.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
この方法は、古い情報や不正確な「ハロゲン化」コンテンツを生成する傾向を含む、一般的なLCM制限に対処する。
しかしながら、既存のベンチマークはスコープと多様性に制限があるため、RAGシステムの評価は困難である。
現在のベンチマークのほとんどは質問応答アプリケーションを評価しており、ragが有利であることを証明できる幅広い状況を見渡している。
さらに,実験におけるragパイプラインのllmコンポーネントの性能評価のみを行い,検索コンポーネントと外部知識データベースの影響を無視した。
これらの課題に対処するため,大規模で包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
具体的には、RAGアプリケーションの範囲を4つの異なるタイプ(Create、Read、Update、Delete(CRUD))に分類しました。
create"は、オリジナルで多様なコンテンツを生成する必要があるシナリオを指す。
読み」とは知識集約的な状況において複雑な質問に答えることである。
アップデート」は、既存のテキストにおける不正確さや矛盾の修正と修正に焦点を当てている。
『削除』は、広義のテキストをより簡潔な形式に要約する作業である。
これらのCRUDカテゴリごとに、RAGシステムの性能を評価するための包括的なデータセットを開発しました。
また,レトリバー,コンテキスト長,知識ベース構築,LLMなど,RAGシステムの様々な構成要素の影響も分析する。
最後に、rag技術をさまざまなシナリオに最適化するための有用な洞察を提供する。
関連論文リスト
- REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain
Question Answering [122.62012375722124]
既存の手法では,大規模言語モデル (LLM) は検索した文書の関連性を正確に評価することはできない。
Relevance-Aware Retrieval-augmented approach for open- domain question answering (QA)を提案する。
論文 参考訳(メタデータ) (2024-02-27T13:22:51Z) - Retrieval Augmented Generation Systems: Automatic Dataset Creation,
Evaluation and Boolean Agent Setup [5.464952345664292]
Retrieval Augmented Generation (RAG) システムは、Large-Language Model (LLM) 出力をドメイン固有データと時間機密データで拡張することで大きな人気を得ている。
本稿では,RAG戦略を定量的に比較するために,厳密なデータセット作成と評価のワークフローを提案する。
論文 参考訳(メタデータ) (2024-02-26T12:56:17Z) - RAG-Fusion: a New Take on Retrieval-Augmented Generation [0.0]
Infineonは、エンジニア、アカウントマネージャ、顧客が迅速に製品情報を取得する必要性を特定している。
この研究は人工知能(AI)と自然言語処理(NLP)の応用において大きな進歩をみせている。
論文 参考訳(メタデータ) (2024-01-31T22:06:07Z) - The Power of Noise: Redefining Retrieval for RAG Systems [20.22211173429561]
Retrieval-Augmented Generation (RAG) システムは従来のLarge Language Models (LLM) よりも大幅に進歩している。
本稿では,有効なRAGのプロンプト定式化のために,検索者が保持すべき特徴について分析する。
無関係な文書を含むと、予想外に30%以上の精度で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2024-01-26T14:14:59Z) - Retrieval-Augmented Generation for Large Language Models: A Survey [19.139461618363605]
大きな言語モデル(LLM)は重要な能力を示すが、幻覚、時代遅れの知識、不透明で追跡不能な推論プロセスといった課題に直面している。
Retrieval-Augmented Generation (RAG) は,外部データベースからの知識を取り入れた,有望なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-12-18T07:47:33Z) - ARES: An Automated Evaluation Framework for Retrieval-Augmented
Generation Systems [50.82251875013377]
ARESは軽量LM判定器を微調整し、個々のRAG成分の品質を評価する。
予測駆動推論(PPI)のための人間アノテーション付きデータポイントの小さなセットの利用
ARESは、数百の人間のアノテーションを使用して、RAGシステムを正確に評価する。
論文 参考訳(メタデータ) (2023-11-16T00:39:39Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - RAGAS: Automated Evaluation of Retrieval Augmented Generation [25.402461447140823]
RAGAはRetrieval Augmented Generationパイプラインを評価するためのフレームワークである。
RAGシステムは、検索とLLMベースの生成モジュールで構成される。
論文 参考訳(メタデータ) (2023-09-26T19:23:54Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。