論文の概要: SPEAR: Subset-sampled Performance Evaluation via Automated Ground Truth Generation for RAG
- arxiv url: http://arxiv.org/abs/2507.06554v1
- Date: Wed, 09 Jul 2025 05:13:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.479776
- Title: SPEAR: Subset-sampled Performance Evaluation via Automated Ground Truth Generation for RAG
- Title(参考訳): SPEAR:RAGのための地層自動生成によるサブセットサンプリング性能評価
- Authors: Zou Yuheng, Wang Yiran, Tian Yuzhu, Zhu Min, Huang Yanhua,
- Abstract要約: 本稿では,サブセットサンプリング手法を用いて評価データの課題に対処するSEARAを提案する。
本手法は,実際のユーザクエリに基づいて,完全自動検索を低コストで実現する。
我々は,知識に基づくQ&Aシステムや検索に基づく旅行アシスタントなど,従来のRAGアプリケーションにまたがる手法を検証する。
- 参考スコア(独自算出の注目度): 1.908792985190258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) is a core approach for enhancing Large Language Models (LLMs), where the effectiveness of the retriever largely determines the overall response quality of RAG systems. Retrievers encompass a multitude of hyperparameters that significantly impact performance outcomes and demonstrate sensitivity to specific applications. Nevertheless, hyperparameter optimization entails prohibitively high computational expenses. Existing evaluation methods suffer from either prohibitive costs or disconnection from domain-specific scenarios. This paper proposes SEARA (Subset sampling Evaluation for Automatic Retriever Assessment), which addresses evaluation data challenges through subset sampling techniques and achieves robust automated retriever evaluation by minimal retrieval facts extraction and comprehensive retrieval metrics. Based on real user queries, this method enables fully automated retriever evaluation at low cost, thereby obtaining optimal retriever for specific business scenarios. We validate our method across classic RAG applications in rednote, including knowledge-based Q&A system and retrieval-based travel assistant, successfully obtaining scenario-specific optimal retrievers.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、Large Language Models (LLMs) を強化するための中核的なアプローチである。
Retrieversには、パフォーマンスの成果に大きな影響を与え、特定のアプリケーションに対する感受性を示す、多数のハイパーパラメータが含まれている。
しかし、ハイパーパラメーター最適化は計算コストが極端に高い。
既存の評価手法は、禁止コストまたはドメイン固有のシナリオからの切り離しに悩まされる。
本稿では,サブセットサンプリング手法を用いて評価データの課題に対処し,最小限の検索事実抽出と総合的な検索指標によるロバストな自動検索評価を実現するSEARAを提案する。
本手法は,実際のユーザクエリに基づいて,低コストで完全自動検索者評価を可能にし,特定のビジネスシナリオに対して最適な検索者を得る。
我々は,知識に基づくQ&Aシステムや検索に基づく旅行アシスタントなど,従来のRAGアプリケーションにまたがる手法を検証する。
関連論文リスト
- SePer: Measure Retrieval Utility Through The Lens Of Semantic Perplexity Reduction [20.6787276745193]
本稿では、RAGフレームワーク内の情報ゲインのレンズを通して、検索品質を測定する自動評価手法を提案する。
検索の利便性を,検索後の意味的難易度を低減する程度で定量化する。
論文 参考訳(メタデータ) (2025-03-03T12:37:34Z) - Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。
我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文 参考訳(メタデータ) (2024-12-16T19:11:55Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems [46.522527144802076]
本稿では,RAGシステム評価のための自動RAG評価システムであるARESを紹介する。
ARESは軽量LM判定器を微調整し、個々のRAG成分の品質を評価する。
コードとデータセットをGithubで公開しています。
論文 参考訳(メタデータ) (2023-11-16T00:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。