論文の概要: ARES: An Automated Evaluation Framework for Retrieval-Augmented
Generation Systems
- arxiv url: http://arxiv.org/abs/2311.09476v1
- Date: Thu, 16 Nov 2023 00:39:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 17:01:25.785548
- Title: ARES: An Automated Evaluation Framework for Retrieval-Augmented
Generation Systems
- Title(参考訳): ARES:Retrieval-Augmented Generation Systemのための自動評価フレームワーク
- Authors: Jon Saad-Falcon, Omar Khattab, Christopher Potts, Matei Zaharia
- Abstract要約: ARESは軽量LM判定器を微調整し、個々のRAG成分の品質を評価する。
予測駆動推論(PPI)のための人間アノテーション付きデータポイントの小さなセットの利用
ARESは、数百の人間のアノテーションを使用して、RAGシステムを正確に評価する。
- 参考スコア(独自算出の注目度): 50.82251875013377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating retrieval-augmented generation (RAG) systems traditionally relies
on hand annotations for input queries, passages to retrieve, and responses to
generate. We introduce ARES, an Automated RAG Evaluation System, for evaluating
RAG systems along the dimensions of context relevance, answer faithfulness, and
answer relevance. Using synthetic training data, ARES finetunes lightweight LM
judges to assess the quality of individual RAG components. To mitigate
potential prediction errors, ARES utilizes a small set of human-annotated
datapoints for prediction-powered inference (PPI). Across six different
knowledge-intensive tasks in KILT and SuperGLUE, ARES accurately evaluates RAG
systems while using a few hundred human annotations during evaluation.
Furthermore, ARES judges remain effective across domain shifts, proving
accurate even after changing the type of queries and/or documents used in the
evaluated RAG systems. We make our datasets and code for replication and
deployment available at https://github.com/stanford-futuredata/ARES.
- Abstract(参考訳): 検索拡張生成システム(RAG)の評価は、伝統的に、入力クエリ、検索するパス、生成するレスポンスのハンドアノテーションに依存している。
本稿では,自動RAG評価システムであるARESを導入し,文脈関連性,回答忠実性,回答関連性といった側面に沿ったRAGシステムの評価を行う。
合成トレーニングデータを用いて、ARESは軽量LM判定器を微調整し、個々のRAG成分の品質を評価する。
潜在的な予測エラーを軽減するため、ARESは予測駆動推論(PPI)のために、人間に注釈を付けた少数のデータポイントを使用する。
KILTとSuperGLUEの6つの異なる知識集約タスクにおいて、ARESは評価中に数百人のアノテーションを使用してRAGシステムを正確に評価する。
さらに、ares判定はドメインシフトをまたいで有効であり、評価されたragシステムで使用されるクエリや/またはドキュメントの種類を変えても正確である。
私たちはデータセットとコードをhttps://github.com/stanford-futuredata/ARESで公開しています。
関連論文リスト
- Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。
このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。
すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文 参考訳(メタデータ) (2024-10-20T22:59:34Z) - Towards Fair RAG: On the Impact of Fair Ranking in Retrieval-Augmented Generation [53.285436927963865]
本稿では,公正ランキングと統合されたRAGシステムの最初の体系的評価について述べる。
本稿では,RAGシステムで活用されるランキングにおいて,各項目の公正な露出を測定することに焦点を当てる。
以上の結果から,RAGシステムは高い世代品質を維持でき,多くの場合,従来のRAGシステムよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-09-17T23:10:04Z) - RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation [61.14660526363607]
本稿では,検索モジュールと生成モジュールの両方に対して,一連の診断指標を組み込んだ詳細な評価フレームワークであるRAGCheckerを提案する。
RAGCheckerは、他の評価指標よりも、人間の判断との相関が著しく優れている。
RAGCheckerのメトリクスは、より効果的なRAGシステムの開発において研究者や実践者を導くことができる。
論文 参考訳(メタデータ) (2024-08-15T10:20:54Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - RAGBench: Explainable Benchmark for Retrieval-Augmented Generation Systems [0.0]
Retrieval-Augmented Generation (RAG)は、ユーザ向けチャットアプリケーションにおけるドメイン固有の知識の標準的なアーキテクチャパターンとなっている。
RAGBenchは、100kのサンプルからなる、最初の包括的な大規模RAGベンチマークデータセットである。
TRACe評価フレームワークは、すべてのRAGドメインに適用可能な説明可能かつ実行可能なRAG評価指標のセットである。
論文 参考訳(メタデータ) (2024-06-25T20:23:15Z) - Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework [0.5897092980823265]
本稿では,RAG (Retrieval-Augmented Generation) Question-Answeringシステムを評価するための総合的なフレームワークを提案する。
我々はLarge Language Models (LLMs) を用いて、実際のユーザクエリとドメイン内ドキュメントに基づいて、合成クエリの大規模なデータセットを生成する。
RAGEloはヒトのアノテータの好みと正に一致しているが,注意が必要である。
論文 参考訳(メタデータ) (2024-06-20T23:20:34Z) - Evaluation of Retrieval-Augmented Generation: A Survey [13.633909177683462]
本稿では,Retrieval-Augmented Generation (RAG)システムの評価とベンチマークについて概観する。
具体的には、検索・生成要素の定量化指標(関連性、正確性、忠実性など)について検討・比較する。
次に、様々なデータセットとメトリクスを分析し、現在のベンチマークの限界について議論し、RAGベンチマークの分野を前進させる潜在的な方向性を提案する。
論文 参考訳(メタデータ) (2024-05-13T02:33:25Z) - Evaluating Retrieval Quality in Retrieval-Augmented Generation [21.115495457454365]
従来のエンドツーエンド評価手法は計算コストが高い。
本稿では,検索リストの各文書をRAGシステム内の大規模言語モデルで個別に利用するeRAGを提案する。
eRAGは、ランタイムを改善し、エンドツーエンド評価の最大50倍のGPUメモリを消費する、大きな計算上のアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-04-21T21:22:28Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。