論文の概要: Towards Global Retrieval Augmented Generation: A Benchmark for Corpus-Level Reasoning
- arxiv url: http://arxiv.org/abs/2510.26205v1
- Date: Thu, 30 Oct 2025 07:29:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.698735
- Title: Towards Global Retrieval Augmented Generation: A Benchmark for Corpus-Level Reasoning
- Title(参考訳): グローバル検索型Augmented Generationに向けて:コーパスレベル推論のベンチマーク
- Authors: Qi Luo, Xiaonan Li, Tingshuo Fan, Xinchi Chen, Xipeng Qiu,
- Abstract要約: 我々は,グローバルRAG機能を評価するために設計された最初のベンチマークであるGlobalQAを紹介する。
我々は,チャンクレベルの検索によって構造的コヒーレンスを保存するマルチツール協調フレームワークであるGlobalRAGを提案する。
Qwen2.5-14Bモデルでは、GlobalRAGは最強のベースラインである1.51 F1と比較して6.63 F1を達成した。
- 参考スコア(独自算出の注目度): 50.27838512822097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) has emerged as a leading approach to reducing hallucinations in large language models (LLMs). Current RAG evaluation benchmarks primarily focus on what we call local RAG: retrieving relevant chunks from a small subset of documents to answer queries that require only localized understanding within specific text chunks. However, many real-world applications require a fundamentally different capability -- global RAG -- which involves aggregating and analyzing information across entire document collections to derive corpus-level insights (for example, "What are the top 10 most cited papers in 2023?"). In this paper, we introduce GlobalQA -- the first benchmark specifically designed to evaluate global RAG capabilities, covering four core task types: counting, extremum queries, sorting, and top-k extraction. Through systematic evaluation across different models and baselines, we find that existing RAG methods perform poorly on global tasks, with the strongest baseline achieving only 1.51 F1 score. To address these challenges, we propose GlobalRAG, a multi-tool collaborative framework that preserves structural coherence through chunk-level retrieval, incorporates LLM-driven intelligent filters to eliminate noisy documents, and integrates aggregation modules for precise symbolic computation. On the Qwen2.5-14B model, GlobalRAG achieves 6.63 F1 compared to the strongest baseline's 1.51 F1, validating the effectiveness of our method.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)における幻覚を減らす主要なアプローチとして登場した。
現在のRAG評価ベンチマークは主に、私たちがローカルRAGと呼ぶものに焦点を当てている。 文書の小さなサブセットから関連のあるチャンクを取得して、特定のテキストチャンク内でのみ局所的な理解を必要とするクエリに答える。
しかしながら、多くの現実世界のアプリケーションは、コーパスレベルの洞察を導き出すために、全ドキュメントコレクションにまたがる情報を集約し分析する、基本的な機能 -- グローバルRAG -- を必要としている(例えば、2023年に最も引用された論文のトップ10は?
本稿では,グローバルなRAG機能を評価するために設計された最初のベンチマークであるGlobalQAを紹介する。
異なるモデルとベースラインの体系的な評価により、既存のRAG手法はグローバルなタスクでは不十分であり、最強のベースラインは1.51 F1スコアに過ぎなかった。
これらの課題に対処するため,我々は,チャンクレベルの検索によって構造コヒーレンスを保存するマルチツール協調フレームワークであるGlobalRAGを提案する。
Qwen2.5-14Bモデルにおいて,GlobalRAGは最強ベースラインの1.51F1と比較して6.63F1を達成し,本手法の有効性を検証した。
関連論文リスト
- mmRAG: A Modular Benchmark for Retrieval-Augmented Generation over Text, Tables, and Knowledge Graphs [11.861763118322136]
マルチモーダルRAGシステムを評価するためのモジュール型ベンチマークであるmmRAGを紹介する。
我々のベンチマークでは、テキスト、テーブル、知識グラフにまたがる6つの多様な問合せデータセットからのクエリを統合する。
文書関連性を注釈化し、データセット関連性を導出するための標準情報検索手順に従う。
論文 参考訳(メタデータ) (2025-05-16T12:31:29Z) - QuIM-RAG: Advancing Retrieval-Augmented Generation with Inverted Question Matching for Enhanced QA Performance [1.433758865948252]
本研究では,RAG(Retrieval-Augmented Generation)システム構築のための新しいアーキテクチャを提案する。
RAGアーキテクチャは、ターゲット文書から応答を生成するために構築される。
本稿では,本システムにおける検索機構の新しいアプローチQuIM-RAGを紹介する。
論文 参考訳(メタデータ) (2025-01-06T01:07:59Z) - RAGBench: Explainable Benchmark for Retrieval-Augmented Generation Systems [0.0]
Retrieval-Augmented Generation (RAG)は、ユーザ向けチャットアプリケーションにおけるドメイン固有の知識の標準的なアーキテクチャパターンとなっている。
RAGBenchは、100kのサンプルからなる、最初の包括的な大規模RAGベンチマークデータセットである。
TRACe評価フレームワークは、すべてのRAGドメインに適用可能な説明可能かつ実行可能なRAG評価指標のセットである。
論文 参考訳(メタデータ) (2024-06-25T20:23:15Z) - Evaluating Retrieval Quality in Retrieval-Augmented Generation [21.115495457454365]
従来のエンドツーエンド評価手法は計算コストが高い。
本稿では,検索リストの各文書をRAGシステム内の大規模言語モデルで個別に利用するeRAGを提案する。
eRAGは、ランタイムを改善し、エンドツーエンド評価の最大50倍のGPUメモリを消費する、大きな計算上のアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-04-21T21:22:28Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - LMGQS: A Large-scale Dataset for Query-focused Summarization [77.6179359525065]
我々は4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。
我々は最先端の要約モデルを用いてベースラインを確立する。
複数の既存のQFSベンチマークにおいて、最先端のゼロショットと教師付きパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-22T14:53:45Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。