論文の概要: Evaluation of Retrieval-Augmented Generation: A Survey
- arxiv url: http://arxiv.org/abs/2405.07437v1
- Date: Mon, 13 May 2024 02:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 15:04:30.310308
- Title: Evaluation of Retrieval-Augmented Generation: A Survey
- Title(参考訳): 検索機能強化ジェネレーションの評価:サーベイ
- Authors: Hao Yu, Aoran Gan, Kai Zhang, Shiwei Tong, Qi Liu, Zhaofeng Liu,
- Abstract要約: Retrieval-Augmented Generation (RAG) は自然言語処理における重要なイノベーションとして現れている。
RAGシステムの評価は、そのハイブリッド構造と動的知識源への依存により、異なる課題をもたらす。
本稿では,RAGR (Retrieval, Generation, additional Requirement) と呼ばれるRAGシステムのベンチマーク分析フレームワークを提案し,RAGベンチマークを体系的に解析する。
- 参考スコア(独自算出の注目度): 13.633909177683462
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) has emerged as a pivotal innovation in natural language processing, enhancing generative models by incorporating external information retrieval. Evaluating RAG systems, however, poses distinct challenges due to their hybrid structure and reliance on dynamic knowledge sources. We consequently enhanced an extensive survey and proposed an analysis framework for benchmarks of RAG systems, RAGR (Retrieval, Generation, Additional Requirement), designed to systematically analyze RAG benchmarks by focusing on measurable outputs and established truths. Specifically, we scrutinize and contrast multiple quantifiable metrics of the Retrieval and Generation component, such as relevance, accuracy, and faithfulness, of the internal links within the current RAG evaluation methods, covering the possible output and ground truth pairs. We also analyze the integration of additional requirements of different works, discuss the limitations of current benchmarks, and propose potential directions for further research to address these shortcomings and advance the field of RAG evaluation. In conclusion, this paper collates the challenges associated with RAG evaluation. It presents a thorough analysis and examination of existing methodologies for RAG benchmark design based on the proposed RGAR framework.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は自然言語処理において重要な革新であり、外部情報検索を取り入れて生成モデルを向上させる。
しかしながら、RAGシステムの評価は、そのハイブリッド構造と動的知識源への依存により、異なる課題を生んでいる。
そこで我々は,RAGR (Retrieval, Generation, additional Requirement) と呼ばれるRAGRシステムのベンチマーク分析フレームワークを提案し,測定可能な出力に着目してRAGRベンチマークを体系的に解析し,真理を確立した。
具体的には、現在のRAG評価手法における内部リンクの関連性、正確性、忠実性など、検索および生成コンポーネントの複数の定量化指標を精査し、対比し、出力と基底真理のペアを網羅する。
また、異なる作業の追加要件の統合を分析し、現在のベンチマークの限界について議論し、これらの欠点に対処し、RAG評価の分野を前進させるための潜在的方向性を提案する。
本稿では,RAG評価に関わる課題を整理する。
提案したRGARフレームワークに基づいて,RAGベンチマーク設計のための既存手法の徹底的な分析と検証を行う。
関連論文リスト
- Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - CoFE-RAG: A Comprehensive Full-chain Evaluation Framework for Retrieval-Augmented Generation with Enhanced Data Diversity [23.48167670445722]
Retrieval-Augmented Generation (RAG) は、外部知識ソースから取得したコンテキストの助けを借りて、より正確で信頼性の高い回答を生成することを目的としている。
これらのシステムの評価は, 以下の問題により, 依然として重要な研究領域である。
RAGパイプライン全体にわたって徹底的な評価を容易にするために,包括的全チェーン評価(CoFE-RAG)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-16T05:20:32Z) - Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。
本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T09:06:44Z) - WeQA: A Benchmark for Retrieval Augmented Generation in Wind Energy Domain [2.8514947506989707]
ドメイン関連RAGベンチマークを生成するための包括的なフレームワークを提案する。
我々のフレームワークは、人間(ドメインの専門家)-AI大言語モデル(LLM)による自動質問応答生成に基づいている。
風力エネルギー領域の第一級ベンチマークであるWeQAを導入することで、この枠組みを実証する。
論文 参考訳(メタデータ) (2024-08-21T17:43:11Z) - RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation [61.14660526363607]
本稿では,検索モジュールと生成モジュールの両方に対して,一連の診断指標を組み込んだ詳細な評価フレームワークであるRAGCheckerを提案する。
RAGCheckerは、他の評価指標よりも、人間の判断との相関が著しく優れている。
RAGCheckerのメトリクスは、より効果的なRAGシステムの開発において研究者や実践者を導くことができる。
論文 参考訳(メタデータ) (2024-08-15T10:20:54Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - BERGEN: A Benchmarking Library for Retrieval-Augmented Generation [26.158785168036662]
Retrieval-Augmented Generationは、外部知識による大規模言語モデルの拡張を可能にする。
一貫性のないベンチマークは、アプローチを比較し、パイプライン内の各コンポーネントの影響を理解する上で大きな課題となる。
本研究では,RAGを体系的に評価するための基礎となるベストプラクティスと,RAG実験を標準化した再現可能な研究用ライブラリであるBERGENについて検討する。
論文 参考訳(メタデータ) (2024-07-01T09:09:27Z) - RAGGED: Towards Informed Design of Retrieval Augmented Generation Systems [51.171355532527365]
Retrieval-augmented Generation (RAG) は言語モデル(LM)の性能を大幅に向上させる
RAGGEDは、様々な文書ベースの質問応答タスクにわたるRAG構成を分析するためのフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T02:26:31Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。