論文の概要: MSRS: Evaluating Multi-Source Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2508.20867v1
- Date: Thu, 28 Aug 2025 14:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.46549
- Title: MSRS: Evaluating Multi-Source Retrieval-Augmented Generation
- Title(参考訳): MSRS:マルチソース検索拡張ジェネレーションの評価
- Authors: Rohan Phanse, Yijie Zhou, Kejian Shi, Wencai Zhang, Yixin Liu, Yilun Zhao, Arman Cohan,
- Abstract要約: 多くの現実世界のアプリケーションは、複数のソースにまたがる情報を統合して要約する能力を必要としている。
本稿では、RAGシステムに対して異なるソース間で情報を統合するための評価ベンチマークを構築するためのスケーラブルなフレームワークを提案する。
- 参考スコア(独自算出の注目度): 51.717139132190574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented systems are typically evaluated in settings where information required to answer the query can be found within a single source or the answer is short-form or factoid-based. However, many real-world applications demand the ability to integrate and summarize information scattered across multiple sources, where no single source is sufficient to respond to the user's question. In such settings, the retrieval component of a RAG pipeline must recognize a variety of relevance signals, and the generation component must connect and synthesize information across multiple sources. We present a scalable framework for constructing evaluation benchmarks that challenge RAG systems to integrate information across distinct sources and generate long-form responses. Using our framework, we build two new benchmarks on Multi-Source Retrieval and Synthesis: MSRS-Story and MSRS-Meet, representing narrative synthesis and summarization tasks, respectively, that require retrieval from large collections. Our extensive experiments with various RAG pipelines -- including sparse and dense retrievers combined with frontier LLMs -- reveal that generation quality is highly dependent on retrieval effectiveness, which varies greatly by task. While multi-source synthesis proves challenging even in an oracle retrieval setting, we find that reasoning models significantly outperform standard LLMs at this distinct step.
- Abstract(参考訳): Retrieval-augmentedシステムは通常、クエリに応答するために必要な情報が単一のソース内にあるか、あるいは応答がショートフォームまたはファクトイドベースであるような設定で評価される。
しかし、現実世界のアプリケーションの多くは、複数のソースにまたがる情報を統合し、要約する機能を必要としている。
このような設定では、RAGパイプラインの検索コンポーネントは様々な関連信号を認識し、生成コンポーネントは複数のソースにまたがる情報を接続して合成する必要がある。
本稿では、RAGシステムに対して異なるソース間で情報を統合し、長文応答を生成するための評価ベンチマークを構築するためのスケーラブルなフレームワークを提案する。
筆者らは,多ソース検索と合成に関する2つの新しいベンチマークを構築した。MSRS-StoryとMSRS-Meetは,大容量コレクションからの検索を必要とする物語合成タスクと要約タスクを表す。
各種RAGパイプラインを用いた広範囲な実験により, 生成品質は, タスクによって大きく異なる検索効率に大きく依存していることが判明した。
マルチソース合成は, オラクル検索においても困難であることが証明されているが, この異なる段階において, 推論モデルが標準LLMよりも著しく優れていることが判明した。
関連論文リスト
- DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。
我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文 参考訳(メタデータ) (2025-07-29T17:55:23Z) - Multi-Head RAG: Solving Multi-Aspect Problems with LLMs [18.581518952488093]
MRAG(Multi-Head RAG)は、マルチアスペクト文書を取得するための新しいスキームである。
MRAGは18RAGベースラインに対して設計上の優位性を示し,検索成功率の最大20%を実証的に改善した。
論文 参考訳(メタデータ) (2024-06-07T16:59:38Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。