論文の概要: ARES: An Automated Evaluation Framework for Retrieval-Augmented
Generation Systems
- arxiv url: http://arxiv.org/abs/2311.09476v1
- Date: Thu, 16 Nov 2023 00:39:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 17:01:25.785548
- Title: ARES: An Automated Evaluation Framework for Retrieval-Augmented
Generation Systems
- Title(参考訳): ARES:Retrieval-Augmented Generation Systemのための自動評価フレームワーク
- Authors: Jon Saad-Falcon, Omar Khattab, Christopher Potts, Matei Zaharia
- Abstract要約: ARESは軽量LM判定器を微調整し、個々のRAG成分の品質を評価する。
予測駆動推論(PPI)のための人間アノテーション付きデータポイントの小さなセットの利用
ARESは、数百の人間のアノテーションを使用して、RAGシステムを正確に評価する。
- 参考スコア(独自算出の注目度): 50.82251875013377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating retrieval-augmented generation (RAG) systems traditionally relies
on hand annotations for input queries, passages to retrieve, and responses to
generate. We introduce ARES, an Automated RAG Evaluation System, for evaluating
RAG systems along the dimensions of context relevance, answer faithfulness, and
answer relevance. Using synthetic training data, ARES finetunes lightweight LM
judges to assess the quality of individual RAG components. To mitigate
potential prediction errors, ARES utilizes a small set of human-annotated
datapoints for prediction-powered inference (PPI). Across six different
knowledge-intensive tasks in KILT and SuperGLUE, ARES accurately evaluates RAG
systems while using a few hundred human annotations during evaluation.
Furthermore, ARES judges remain effective across domain shifts, proving
accurate even after changing the type of queries and/or documents used in the
evaluated RAG systems. We make our datasets and code for replication and
deployment available at https://github.com/stanford-futuredata/ARES.
- Abstract(参考訳): 検索拡張生成システム(RAG)の評価は、伝統的に、入力クエリ、検索するパス、生成するレスポンスのハンドアノテーションに依存している。
本稿では,自動RAG評価システムであるARESを導入し,文脈関連性,回答忠実性,回答関連性といった側面に沿ったRAGシステムの評価を行う。
合成トレーニングデータを用いて、ARESは軽量LM判定器を微調整し、個々のRAG成分の品質を評価する。
潜在的な予測エラーを軽減するため、ARESは予測駆動推論(PPI)のために、人間に注釈を付けた少数のデータポイントを使用する。
KILTとSuperGLUEの6つの異なる知識集約タスクにおいて、ARESは評価中に数百人のアノテーションを使用してRAGシステムを正確に評価する。
さらに、ares判定はドメインシフトをまたいで有効であり、評価されたragシステムで使用されるクエリや/またはドキュメントの種類を変えても正確である。
私たちはデータセットとコードをhttps://github.com/stanford-futuredata/ARESで公開しています。
関連論文リスト
- Retrieval-Augmented Generation for AI-Generated Content: A Survey [36.577189818885486]
このような課題に対処するためのパラダイムとして,レトリーバル拡張生成(RAG)が登場している。
RAGは情報検索プロセスを導入し、利用可能なデータストアから関連オブジェクトを検索することでAIGC結果を強化する。
本稿では,RAG手法をAIGCシナリオに統合する既存の取り組みを概観的にレビューする。
論文 参考訳(メタデータ) (2024-02-29T18:59:01Z) - REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain
Question Answering [122.62012375722124]
既存の手法では,大規模言語モデル (LLM) は検索した文書の関連性を正確に評価することはできない。
Relevance-Aware Retrieval-augmented approach for open- domain question answering (QA)を提案する。
論文 参考訳(メタデータ) (2024-02-27T13:22:51Z) - Retrieval Augmented Generation Systems: Automatic Dataset Creation,
Evaluation and Boolean Agent Setup [5.464952345664292]
Retrieval Augmented Generation (RAG) システムは、Large-Language Model (LLM) 出力をドメイン固有データと時間機密データで拡張することで大きな人気を得ている。
本稿では,RAG戦略を定量的に比較するために,厳密なデータセット作成と評価のワークフローを提案する。
論文 参考訳(メタデータ) (2024-02-26T12:56:17Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented
Generation of Large Language Models [55.47070014913373]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - The Power of Noise: Redefining Retrieval for RAG Systems [20.22211173429561]
Retrieval-Augmented Generation (RAG) システムは従来のLarge Language Models (LLM) よりも大幅に進歩している。
本稿では,有効なRAGのプロンプト定式化のために,検索者が保持すべき特徴について分析する。
無関係な文書を含むと、予想外に30%以上の精度で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2024-01-26T14:14:59Z) - Seven Failure Points When Engineering a Retrieval Augmented Generation
System [1.8776685617612472]
RAGシステムは,大規模言語モデルからの幻覚応答の問題を解決することを目的としている。
RAGシステムは情報検索システム固有の制限に悩まされている。
本稿では3つのケーススタディからRAGシステムの故障点について報告する。
論文 参考訳(メタデータ) (2024-01-11T12:04:11Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。