Fugu-MT 論文翻訳(概要): StratRAG: A Multi-Hop Retrieval Evaluation Dataset for Retrieval-Augmented Generation Systems

論文の概要: StratRAG: A Multi-Hop Retrieval Evaluation Dataset for Retrieval-Augmented Generation Systems

arxiv url: http://arxiv.org/abs/2604.22757v1
Date: Fri, 06 Mar 2026 20:08:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-04 02:32:14.154163
Title: StratRAG: A Multi-Hop Retrieval Evaluation Dataset for Retrieval-Augmented Generation Systems
Title（参考訳）: StratRAG:検索拡張システムのためのマルチホップ検索評価データセット
Authors: Aryan Patodiya,
Abstract要約: StratRAGはRetrieval-Augmented Generation (RAG)システムのベンチマークのための評価データセットである。 3つの質問タイプ(ブリッジ、比較、イエスノー)にまたがる2,200のサンプルで構成されており、それぞれ15の候補ドキュメントがペアリングされている。 BM25、高密度検索、ハイブリッド融合の3つの検索戦略をベンチマークする。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce StratRAG, an open-source retrieval evaluation dataset for benchmarking Retrieval-Augmented Generation (RAG) systems on multi-hop reasoning tasks under realistic, noisy document-pool conditions. Derived from HotpotQA (distractor setting), StratRAG comprises 2,200 examples across three question types -- bridge, comparison, and yes-no -- each paired with a pool of 15 candidate documents containing exactly 2 gold documents and 13 topically related distractors. We benchmark three retrieval strategies -- BM25, dense retrieval (all-MiniLM-L6-v2), and hybrid fusion -- reporting Recall@k, MRR, and NDCG@5 on the validation set. Hybrid retrieval achieves the best overall performance (Recall@2 = 0.70, MRR = 0.93), yet bridge questions remain substantially harder (Recall@2 = 0.67), motivating future work on reinforcement-learning-based retrieval policies. StratRAG is publicly available at https://huggingface.co/datasets/Aryanp088/StratRAG.
Abstract（参考訳）: そこで本研究では,マルチホップ推論タスクにおいて,現実的でノイズの多い文書プール条件下でRAG(Retrieval-Augmented Generation)システムのベンチマークを行うための,オープンソースの検索評価データセットであるStratRAGを紹介する。 HotpotQA (Distractor setting) から派生した StratRAG は,3つの質問タイプ – ブリッジ,比較,Yes-no – の2,200例で構成されている。それぞれに,正確に2つのゴールドドキュメントと13のトポロジ関連イントラクタを含む15の候補ドキュメントがペアリングされている。3つの検索戦略 – BM25,高密度検索 (All-MiniLM-L6-v2) とハイブリッドフュージョン -- Recall@k, MRR, NDCG@5 を検証セット上でベンチマークする。 Recall@2 = 0.70, MRR = 0.93, しかし、橋渡し問題はかなり難しい(Recall@2 = 0.67)。 StratRAGはhttps://huggingface.co/datasets/Aryanp088/StratRAGで公開されている。

関連論文リスト

From BM25 to Corrective RAG: Benchmarking Retrieval Strategies for Text-and-Table Documents [0.0]
スパース, 密度, ハイブリッド融合, クロスエンコーダリグレード, クエリ拡張, インデックス拡張, 適応検索にまたがる10の検索戦略をベンチマークした。我々はRecall@k,MRR,nDCGによる検索品質とNumber Matchによるエンドツーエンド生成品質を評価する。
論文参考訳（メタデータ） (2026-04-02T07:53:40Z)
Test-Time Strategies for More Efficient and Accurate Agentic RAG [58.44913384057518]
Retrieval-Augmented Generation (RAG) システムは複雑なマルチホップ問題に直面している。このような手法は、以前に処理された情報の反復的な検索を含む非効率性を導入することができる。本稿では,これらの問題を軽減するために,サーチ-R1パイプラインに対するテスト時間修正について検討する。
論文参考訳（メタデータ） (2026-03-12T19:18:59Z)
Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage [89.58253972744531]
Retrieval-augmented Generation (RAG) システムは、文書検索と生成モデルを組み合わせて、レポート生成のような複雑な情報を求める課題に対処する。我々は,上流の検索指標が,最終生成応答の情報カバレッジの信頼性の高い早期指標として機能するかどうかを検討する。本研究は,トピックとシステムレベルの両方で生成した応答におけるカバレッジベース検索指標とナゲットカバレッジとの間に強い相関関係を示した。
論文参考訳（メタデータ） (2026-03-09T18:20:20Z)
RAGentA: Multi-Agent Retrieval-Augmented Generation for Attributed Question Answering [4.224843546370802]
本稿では,大規模言語モデル(LLM)を用いた属性質問応答フレームワークであるRAGentAを提案する。 RAGentAは、信頼できる回答生成の目標として、質問と忠実性に対するカバレッジと関連性によって定義された回答の正しさを最適化することに焦点を当てている。フレームワークの中心は、スパースと密集したメソッドを組み合わせたハイブリッド検索戦略であり、最高の単一検索モデルと比較して、Recall@20を12.5%改善している。
論文参考訳（メタデータ） (2025-06-20T13:37:03Z)
Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文参考訳（メタデータ） (2025-01-24T09:12:52Z)
Evaluating Retrieval Quality in Retrieval-Augmented Generation [21.115495457454365]
従来のエンドツーエンド評価手法は計算コストが高い。本稿では,検索リストの各文書をRAGシステム内の大規模言語モデルで個別に利用するeRAGを提案する。 eRAGは、ランタイムを改善し、エンドツーエンド評価の最大50倍のGPUメモリを消費する、大きな計算上のアドバンテージを提供する。
論文参考訳（メタデータ） (2024-04-21T21:22:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。