論文の概要: SPEAR: Subset-sampled Performance Evaluation via Automated Ground Truth Generation for RAG
- arxiv url: http://arxiv.org/abs/2507.06554v1
- Date: Wed, 09 Jul 2025 05:13:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.479776
- Title: SPEAR: Subset-sampled Performance Evaluation via Automated Ground Truth Generation for RAG
- Title(参考訳): SPEAR:RAGのための地層自動生成によるサブセットサンプリング性能評価
- Authors: Zou Yuheng, Wang Yiran, Tian Yuzhu, Zhu Min, Huang Yanhua,
- Abstract要約: 本稿では,サブセットサンプリング手法を用いて評価データの課題に対処するSEARAを提案する。
本手法は,実際のユーザクエリに基づいて,完全自動検索を低コストで実現する。
我々は,知識に基づくQ&Aシステムや検索に基づく旅行アシスタントなど,従来のRAGアプリケーションにまたがる手法を検証する。
- 参考スコア(独自算出の注目度): 1.908792985190258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) is a core approach for enhancing Large Language Models (LLMs), where the effectiveness of the retriever largely determines the overall response quality of RAG systems. Retrievers encompass a multitude of hyperparameters that significantly impact performance outcomes and demonstrate sensitivity to specific applications. Nevertheless, hyperparameter optimization entails prohibitively high computational expenses. Existing evaluation methods suffer from either prohibitive costs or disconnection from domain-specific scenarios. This paper proposes SEARA (Subset sampling Evaluation for Automatic Retriever Assessment), which addresses evaluation data challenges through subset sampling techniques and achieves robust automated retriever evaluation by minimal retrieval facts extraction and comprehensive retrieval metrics. Based on real user queries, this method enables fully automated retriever evaluation at low cost, thereby obtaining optimal retriever for specific business scenarios. We validate our method across classic RAG applications in rednote, including knowledge-based Q&A system and retrieval-based travel assistant, successfully obtaining scenario-specific optimal retrievers.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、Large Language Models (LLMs) を強化するための中核的なアプローチである。
Retrieversには、パフォーマンスの成果に大きな影響を与え、特定のアプリケーションに対する感受性を示す、多数のハイパーパラメータが含まれている。
しかし、ハイパーパラメーター最適化は計算コストが極端に高い。
既存の評価手法は、禁止コストまたはドメイン固有のシナリオからの切り離しに悩まされる。
本稿では,サブセットサンプリング手法を用いて評価データの課題に対処し,最小限の検索事実抽出と総合的な検索指標によるロバストな自動検索評価を実現するSEARAを提案する。
本手法は,実際のユーザクエリに基づいて,低コストで完全自動検索者評価を可能にし,特定のビジネスシナリオに対して最適な検索者を得る。
我々は,知識に基づくQ&Aシステムや検索に基づく旅行アシスタントなど,従来のRAGアプリケーションにまたがる手法を検証する。
関連論文リスト
- Distilling a Small Utility-Based Passage Selector to Enhance Retrieval-Augmented Generation [77.07879255360342]
Retrieval-augmented Generation (RAG)は、取得した情報を組み込むことで、大規模言語モデル(LLM)を強化する。
RAGでは、重要度は実用性に移行し、正確な回答を生成するためのパスの有用性を考慮している。
提案手法は、ランク付けよりもユーティリティベースの選択に重点を置いており、固定しきい値を必要とせずに、特定のクエリに合わせた動的通過選択を可能にする。
本実験は, 実用性に基づく選択により, RAGの柔軟性とコスト効率が向上し, 計算コストが大幅に低減され, 応答品質が向上することを示した。
論文 参考訳(メタデータ) (2025-07-25T09:32:29Z) - Investigating the Robustness of Retrieval-Augmented Generation at the Query Level [4.3028340012580975]
推論中に外部知識を動的に組み込むソリューションとして、検索拡張生成(RAG)が提案されている。
その約束にもかかわらず、RAGシステムは実際的な課題に直面し、特に、正確な検索のために入力クエリの品質に強く依存する。
論文 参考訳(メタデータ) (2025-07-09T15:39:17Z) - SePer: Measure Retrieval Utility Through The Lens Of Semantic Perplexity Reduction [20.6787276745193]
本稿では、RAGフレームワーク内の情報ゲインのレンズを通して、検索品質を測定する自動評価手法を提案する。
検索の利便性を,検索後の意味的難易度を低減する程度で定量化する。
論文 参考訳(メタデータ) (2025-03-03T12:37:34Z) - HawkBench: Investigating Resilience of RAG Methods on Stratified Information-Seeking Tasks [50.871243190126826]
HawkBenchは、RAGのパフォーマンスを厳格に評価するために設計された、人間ラベル付きマルチドメインベンチマークである。
情報探索行動に基づくタスクの階層化により、HawkBenchはRAGシステムが多様なユーザニーズにどのように適応するかを体系的に評価する。
論文 参考訳(メタデータ) (2025-02-19T06:33:39Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Unsupervised Query Routing for Retrieval Augmented Generation [64.47987041500966]
本稿では,検索強化応答の質を評価するために,"upper-bound"応答を構成する新しい教師なし手法を提案する。
この評価により、与えられたクエリに対して最も適切な検索エンジンを決定することができる。
手動のアノテーションをなくすことで、大規模なユーザクエリを自動的に処理し、トレーニングデータを作成することができる。
論文 参考訳(メタデータ) (2025-01-14T02:27:06Z) - MAIN-RAG: Multi-Agent Filtering Retrieval-Augmented Generation [34.66546005629471]
大規模言語モデル(LLM)は、様々な自然言語処理タスクに不可欠なツールであるが、時代遅れや誤った情報の生成に悩まされることが多い。
Retrieval-Augmented Generation (RAG)は、外部のリアルタイム情報検索をLLM応答に組み込むことでこの問題に対処する。
この問題に対処するため,マルチエージェントフィルタ検索検索生成(MAIN-RAG)を提案する。
MAIN-RAGはトレーニング不要なRAGフレームワークで、複数のLCMエージェントを利用して検索した文書のフィルタリングとスコア付けを行う。
論文 参考訳(メタデータ) (2024-12-31T08:07:26Z) - Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。
我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文 参考訳(メタデータ) (2024-12-16T19:11:55Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Blended RAG: Improving RAG (Retriever-Augmented Generation) Accuracy with Semantic Search and Hybrid Query-Based Retrievers [0.0]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル (LLM) で文書のプライベートな知識基盤を注入し、生成的Q&A (Question-Answering) システムを構築するための一般的なアプローチである。
本稿では,Vector インデックスや Sparse インデックスなどのセマンティック検索手法をハイブリッドクエリ手法と組み合わせた 'Blended RAG' 手法を提案する。
本研究は,NQ や TREC-COVID などの IR (Information Retrieval) データセットの検索結果の改善と,新たなベンチマーク設定を行う。
論文 参考訳(メタデータ) (2024-03-22T17:13:46Z) - ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems [46.522527144802076]
本稿では,RAGシステム評価のための自動RAG評価システムであるARESを紹介する。
ARESは軽量LM判定器を微調整し、個々のRAG成分の品質を評価する。
コードとデータセットをGithubで公開しています。
論文 参考訳(メタデータ) (2023-11-16T00:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。