Fugu-MT 論文翻訳(概要): RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation

論文の概要: RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation

arxiv url: http://arxiv.org/abs/2408.08067v2
Date: Sat, 17 Aug 2024 00:30:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-20 11:11:17.304203
Title: RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation
Title（参考訳）: RAGChecker:Retrieval-Augmented Generationを診断するためのきめ細かいフレームワーク
Authors: Dongyu Ru, Lin Qiu, Xiangkun Hu, Tianhang Zhang, Peng Shi, Shuaichen Chang, Cheng Jiayang, Cunxiang Wang, Shichao Sun, Huanyu Li, Zizhao Zhang, Binjie Wang, Jiarong Jiang, Tong He, Zhiguo Wang, Pengfei Liu, Yue Zhang, Zheng Zhang,
Abstract要約: 本稿では,検索モジュールと生成モジュールの両方に対して,一連の診断指標を組み込んだ詳細な評価フレームワークであるRAGCheckerを提案する。 RAGCheckerは、他の評価指標よりも、人間の判断との相関が著しく優れている。 RAGCheckerのメトリクスは、より効果的なRAGシステムの開発において研究者や実践者を導くことができる。
参考スコア（独自算出の注目度）: 61.14660526363607
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite Retrieval-Augmented Generation (RAG) showing promising capability in leveraging external knowledge, a comprehensive evaluation of RAG systems is still challenging due to the modular nature of RAG, evaluation of long-form responses and reliability of measurements. In this paper, we propose a fine-grained evaluation framework, RAGChecker, that incorporates a suite of diagnostic metrics for both the retrieval and generation modules. Meta evaluation verifies that RAGChecker has significantly better correlations with human judgments than other evaluation metrics. Using RAGChecker, we evaluate 8 RAG systems and conduct an in-depth analysis of their performance, revealing insightful patterns and trade-offs in the design choices of RAG architectures. The metrics of RAGChecker can guide researchers and practitioners in developing more effective RAG systems. This work has been open sourced at https://github.com/amazon-science/RAGChecker.
Abstract（参考訳）: 検索型拡張生成(RAG)は,外部知識を活用する上で有望な能力を示すが,RAGのモジュール性,長期応答の評価,測定の信頼性などにより,RAGシステムの総合的な評価はいまだに困難である。本稿では,検索モジュールと生成モジュールの両方に対して,一連の診断指標を組み込んだ詳細な評価フレームワークであるRAGCheckerを提案する。メタ評価は、RAGCheckerが他の評価指標よりも人間の判断との相関が著しく優れていることを検証している。 RAGCheckerを用いて、8つのRAGシステムを評価し、その性能を詳細に分析し、RAGアーキテクチャの設計選択における洞察に富んだパターンとトレードオフを明らかにする。 RAGCheckerのメトリクスは、より効果的なRAGシステムの開発において研究者や実践者を導くことができる。この研究はhttps://github.com/amazon-science/RAGChecker.comで公開されている。

関連論文リスト

RAGExplorer: A Visual Analytics System for the Comparative Diagnosis of RAG Systems [12.726326169727733]
RAGExplorerは、RAG構成の系統的比較と診断のための視覚分析システムである。本稿では,RAGExplorerの有効性を,詳細なケーススタディとユーザスタディを通じて実証する。
論文参考訳（メタデータ） (2026-01-19T12:09:56Z)
RAGVUE: A Diagnostic View for Explainable and Automated Evaluation of Retrieval-Augmented Generation [1.564663326217051]
RAGVUEはRetrieval-Augmented Generation (RAG)システムを評価するためのフレームワークである。 RAGの振る舞いを検索品質、回答の妥当性と完全性、厳格なクレームレベルの忠実さ、および判断の校正に分解する。 RAGVUEは手動のメートル法選択と完全に自動化されたエージェント評価の両方をサポートしている。
論文参考訳（メタデータ） (2025-12-03T07:42:49Z)
MIRAGE: A Metric-Intensive Benchmark for Retrieval-Augmented Generation Evaluation [8.950307082012763]
大規模言語モデル(LLM)の生成能力向上に有効な手法として,検索拡張生成(RAG)が注目されている。本稿では,RAG評価に特化して設計された質問応答データセットであるMIRAGEについて述べる。 MIRAGEは、37,800エントリの検索プールにマッピングされた7,560のキュレートされたインスタンスで構成され、検索と生成の両方のタスクの効率的かつ正確な評価を可能にする。
論文参考訳（メタデータ） (2025-04-23T23:05:46Z)
The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models [53.12387628636912]
本稿では,人間のアノテーションに対して評価を行う自動評価フレームワークを提案する。この手法は2003年にTREC Question Answering (QA) Trackのために開発された。完全自動ナゲット評価から得られるスコアと人間に基づく変種とのランニングレベルでの強い一致を観察する。
論文参考訳（メタデータ） (2025-04-21T12:55:06Z)
XRAG: eXamining the Core -- Benchmarking Foundational Components in Advanced Retrieval-Augmented Generation [37.78210992036775]
Retrieval-augmented Generation (RAG) は、Large Language Models (LLMs) の生成能力と関連するデータの検索を相乗化する我々は,高度なRAGモジュールの基本コンポーネントの性能を徹底的に評価する,オープンソースのモジュールであるXRAGを紹介する。
論文参考訳（メタデータ） (2024-12-20T03:37:07Z)
Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文参考訳（メタデータ） (2024-12-16T19:11:55Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文参考訳（メタデータ） (2024-09-16T09:06:44Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
RAGBench: Explainable Benchmark for Retrieval-Augmented Generation Systems [0.0]
Retrieval-Augmented Generation (RAG)は、ユーザ向けチャットアプリケーションにおけるドメイン固有の知識の標準的なアーキテクチャパターンとなっている。 RAGBenchは、100kのサンプルからなる、最初の包括的な大規模RAGベンチマークデータセットである。 TRACe評価フレームワークは、すべてのRAGドメインに適用可能な説明可能かつ実行可能なRAG評価指標のセットである。
論文参考訳（メタデータ） (2024-06-25T20:23:15Z)
FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research [32.820100519805486]
FlashRAGは、研究者が既存のRAGメソッドを再現し、統一されたフレームワーク内で独自のRAGアルゴリズムを開発するのを支援するために設計された、効率的でモジュール化されたオープンソースツールキットである。私たちのツールキットには、カスタマイズ可能なモジュラーフレームワーク、実装済みRAGワークの豊富なコレクション、包括的なデータセット、効率的な補助的な前処理スクリプト、広範囲で標準的な評価指標など、さまざまな機能があります。
論文参考訳（メタデータ） (2024-05-22T12:12:40Z)
Evaluation of Retrieval-Augmented Generation: A Survey [13.633909177683462]
本稿では,Retrieval-Augmented Generation (RAG)システムの評価とベンチマークについて概観する。具体的には、検索・生成要素の定量化指標(関連性、正確性、忠実性など)について検討・比較する。次に、様々なデータセットとメトリクスを分析し、現在のベンチマークの限界について議論し、RAGベンチマークの分野を前進させる潜在的な方向性を提案する。
論文参考訳（メタデータ） (2024-05-13T02:33:25Z)
InspectorRAGet: An Introspection Platform for RAG Evaluation [14.066727601732625]
InspectorRAGetはRAG評価のためのイントロスペクションプラットフォームである。ユーザはRAGシステムの集約とインスタンスレベルのパフォーマンスを分析できる。
論文参考訳（メタデータ） (2024-04-26T11:51:53Z)
RAGGED: Towards Informed Design of Scalable and Stable RAG Systems [51.171355532527365]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで言語モデルを強化する。 RAGGEDは、RAGシステムを体系的に評価するためのフレームワークである。
論文参考訳（メタデータ） (2024-03-14T02:26:31Z)
CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文参考訳（メタデータ） (2024-01-30T14:25:32Z)
ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems [46.522527144802076]
本稿では,RAGシステム評価のための自動RAG評価システムであるARESを紹介する。 ARESは軽量LM判定器を微調整し、個々のRAG成分の品質を評価する。コードとデータセットをGithubで公開しています。
論文参考訳（メタデータ） (2023-11-16T00:39:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。