論文の概要: THELMA: Task Based Holistic Evaluation of Large Language Model Applications-RAG Question Answering
- arxiv url: http://arxiv.org/abs/2505.11626v1
- Date: Fri, 16 May 2025 18:42:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.746639
- Title: THELMA: Task Based Holistic Evaluation of Large Language Model Applications-RAG Question Answering
- Title(参考訳): THELMA:タスクベース大規模言語モデルの全体的評価-RAG質問応答
- Authors: Udita Patel, Rutu Mulkar, Jay Roberts, Cibi Chakravarthy Senthilkumar, Sujay Gandhi, Xiaofei Zheng, Naumaan Nayyar, Rafael Castrillo,
- Abstract要約: THELMAはRAG(Retrieval Augmented Generation)ベースの質問応答(QA)アプリケーションのための参照フリーフレームワークである。
フレームワークは、開発者とアプリケーションオーナーがラベル付きソースや参照応答を必要とせずに、エンドツーエンドのRAG QAパイプラインを評価し、監視し、改善するのに役立つ。
- 参考スコア(独自算出の注目度): 1.451121761055173
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose THELMA (Task Based Holistic Evaluation of Large Language Model Applications), a reference free framework for RAG (Retrieval Augmented generation) based question answering (QA) applications. THELMA consist of six interdependent metrics specifically designed for holistic, fine grained evaluation of RAG QA applications. THELMA framework helps developers and application owners evaluate, monitor and improve end to end RAG QA pipelines without requiring labelled sources or reference responses.We also present our findings on the interplay of the proposed THELMA metrics, which can be interpreted to identify the specific RAG component needing improvement in QA applications.
- Abstract(参考訳): 我々は、RAG(Retrieval Augmented Generation)ベースの質問応答(QA)アプリケーションのための参照フリーフレームワークであるTheLMA(Task Based Holistic Evaluation of Large Language Model Applications)を提案する。
THELMAは、RAG QAアプリケーションの全体的、きめ細かい評価のために特別に設計された6つの相互依存メトリクスから構成される。
TheLMAフレームワークは、開発者やアプリケーションオーナーがラベル付きソースや参照応答を必要とせず、エンドツーエンドのRAG QAパイプラインを評価し、監視し、改善するのに役立つ。
関連論文リスト
- Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。
我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文 参考訳(メタデータ) (2024-12-16T19:11:55Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering [61.19126689470398]
Long-form RobustQA (LFRQA)は、7つの異なるドメインにわたる26Kクエリと大きなコーパスをカバーする新しいデータセットである。
RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。
最も競争力のあるLLMの回答の41.3%のみがLFRQAの回答に好まれており、RAG-QAアリーナは将来の研究の挑戦的な評価プラットフォームであることを示している。
論文 参考訳(メタデータ) (2024-07-19T03:02:51Z) - RAGBench: Explainable Benchmark for Retrieval-Augmented Generation Systems [0.0]
Retrieval-Augmented Generation (RAG)は、ユーザ向けチャットアプリケーションにおけるドメイン固有の知識の標準的なアーキテクチャパターンとなっている。
RAGBenchは、100kのサンプルからなる、最初の包括的な大規模RAGベンチマークデータセットである。
TRACe評価フレームワークは、すべてのRAGドメインに適用可能な説明可能かつ実行可能なRAG評価指標のセットである。
論文 参考訳(メタデータ) (2024-06-25T20:23:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。