論文の概要: Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage
- arxiv url: http://arxiv.org/abs/2410.15531v1
- Date: Sun, 20 Oct 2024 22:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:13:26.903648
- Title: Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage
- Title(参考訳): RAGシステムは何をカバーしているか?サブクエストカバレッジによる応答の評価と最適化
- Authors: Kaige Xie, Philippe Laban, Prafulla Kumar Choubey, Caiming Xiong, Chien-Sheng Wu,
- Abstract要約: サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。
このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。
すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
- 参考スコア(独自算出の注目度): 74.70255719194819
- License:
- Abstract: Evaluating retrieval-augmented generation (RAG) systems remains challenging, particularly for open-ended questions that lack definitive answers and require coverage of multiple sub-topics. In this paper, we introduce a novel evaluation framework based on sub-question coverage, which measures how well a RAG system addresses different facets of a question. We propose decomposing questions into sub-questions and classifying them into three types -- core, background, and follow-up -- to reflect their roles and importance. Using this categorization, we introduce a fine-grained evaluation protocol that provides insights into the retrieval and generation characteristics of RAG systems, including three commercial generative answer engines: You.com, Perplexity AI, and Bing Chat. Interestingly, we find that while all answer engines cover core sub-questions more often than background or follow-up ones, they still miss around 50% of core sub-questions, revealing clear opportunities for improvement. Further, sub-question coverage metrics prove effective for ranking responses, achieving 82% accuracy compared to human preference annotations. Lastly, we also demonstrate that leveraging core sub-questions enhances both retrieval and answer generation in a RAG system, resulting in a 74% win rate over the baseline that lacks sub-questions.
- Abstract(参考訳): 検索強化世代 (RAG) システムの評価は依然として困難であり、特に未解決の回答を欠き、複数のサブトピックのカバレッジを必要とするオープンエンドの質問に対してである。
本稿では,サブクエストカバレッジに基づく新たな評価フレームワークを提案する。
質問をサブクエストに分解し,その役割と重要性を反映した3つのタイプ – コア,バックグラウンド,フォローアップ – に分類する。
この分類を用いて、我々は、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを含む、RAGシステムの検索および生成特性に関する洞察を提供する、きめ細かい評価プロトコルを導入する。
興味深いことに、すべての回答エンジンがバックグラウンドやフォローアップよりもコアサブクエストを頻繁にカバーしているが、コアサブクエストの約50%を見逃し、改善の機会を明らかにしている。
さらに、サブクエストカバレッジメトリクスは、人間の嗜好アノテーションと比較して82%の精度で、ランキング応答に有効であることが証明された。
最後に、コアサブクエストの活用により、RAGシステムにおける検索と回答の生成が促進され、サブクエストを欠いたベースラインに対して74%の勝利率が得られることを示す。
関連論文リスト
- CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation [68.81271028921647]
我々は,現実的なマルチターン対話環境におけるRAGシステム評価のためのベンチマークであるCORALを紹介する。
コラルにはウィキペディアから自動的に派生した多様な情報検索会話が含まれている。
対話型RAGの3つの中核的なタスク、すなわち、通過検索、応答生成、および引用ラベリングをサポートする。
論文 参考訳(メタデータ) (2024-10-30T15:06:32Z) - CoFE-RAG: A Comprehensive Full-chain Evaluation Framework for Retrieval-Augmented Generation with Enhanced Data Diversity [23.48167670445722]
Retrieval-Augmented Generation (RAG) は、外部知識ソースから取得したコンテキストの助けを借りて、より正確で信頼性の高い回答を生成することを目的としている。
これらのシステムの評価は, 以下の問題により, 依然として重要な研究領域である。
RAGパイプライン全体にわたって徹底的な評価を容易にするために,包括的全チェーン評価(CoFE-RAG)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-16T05:20:32Z) - Towards Fair RAG: On the Impact of Fair Ranking in Retrieval-Augmented Generation [53.285436927963865]
本稿では,公正ランキングと統合されたRAGシステムの最初の体系的評価について述べる。
本稿では,RAGシステムで活用されるランキングにおいて,各項目の公正な露出を測定することに焦点を当てる。
以上の結果から,RAGシステムは高い世代品質を維持でき,多くの場合,従来のRAGシステムよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-09-17T23:10:04Z) - RichRAG: Crafting Rich Responses for Multi-faceted Queries in Retrieval-Augmented Generation [35.981443744108255]
本稿ではRichRAGという新しいRAGフレームワークを提案する。
これには、入力された質問の潜在的なサブアスペクトを特定するサブアスペクトエクスプローラー、これらのサブアスペクトに関連する多様な外部文書の候補プールを構築するレトリバー、および生成リストワイズローダが含まれる。
2つの公開データセットの実験結果から,我々のフレームワークがユーザに対して包括的かつ満足な応答を効果的に提供できることが証明された。
論文 参考訳(メタデータ) (2024-06-18T12:52:51Z) - Iterative Utility Judgment Framework via LLMs Inspired by Relevance in Philosophy [66.95501113584541]
ユーティリティとトピック関連性は、情報検索において重要な手段である。
本稿では,リトリーバル拡張生成のサイクルの各ステップを促進させるために,反復的ユーティリティである JudgmEnt fraMework を提案する。
論文 参考訳(メタデータ) (2024-06-17T07:52:42Z) - Boosting Conversational Question Answering with Fine-Grained Retrieval-Augmentation and Self-Check [25.63538452425097]
本稿では,対話型質問応答のための細粒度検索と自己チェックを組み込んだ対話レベルのRAG手法を提案する。
特に,本手法は,対話型質問精算器,きめ細かい検索器,自己チェックに基づく応答生成器の3つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-03-27T04:20:18Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - The Power of Noise: Redefining Retrieval for RAG Systems [19.387105120040157]
Retrieval-Augmented Generation (RAG) は、大規模言語モデルの事前学習知識を超えて拡張する方法として登場した。
我々は、RAGソリューションが取得すべきパスIRシステムの種類に焦点を当てる。
論文 参考訳(メタデータ) (2024-01-26T14:14:59Z) - Reranking Overgenerated Responses for End-to-End Task-Oriented Dialogue
Systems [71.33737787564966]
エンド・ツー・エンド(E2E)タスク指向対話システム(ToD)は、いわゆる「いいね!
本稿では,システムによって当初過剰に生成された応答リストから高品質な項目を選択する方法を提案する。
本研究では,最先端のE2E ToDシステムを2.4BLEU,3.2ROUGE,2.8 METEORで改善し,新たなピーク値を得た。
論文 参考訳(メタデータ) (2022-11-07T15:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。