論文の概要: Evaluating Retrieval-Augmented Generation Systems on Unanswerable, Uncheatable, Realistic, Multi-hop Queries
- arxiv url: http://arxiv.org/abs/2510.11956v1
- Date: Mon, 13 Oct 2025 21:38:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.099942
- Title: Evaluating Retrieval-Augmented Generation Systems on Unanswerable, Uncheatable, Realistic, Multi-hop Queries
- Title(参考訳): 未解決, 処理不能, 現実的, マルチホップクエリにおける検索型生成システムの評価
- Authors: Gabrielle Kaili-May Liu, Bryan Li, Arman Cohan, William Gantt Walden, Eugene Yang,
- Abstract要約: 実世界のユースケースでは、複雑なクエリを持つRAGシステムが存在し、関連する情報がコーパスから欠落したり、不完全であったりすることが多い。
既存のRAGベンチマークは、マルチホップやスコープ外の質問に対して、現実的なタスクの複雑さを反映することはめったにない。
un$underlinec$heatable, $underliner$ealistic, $underlineu$nanswerable, $underlinem$ulti-hopの自動生成のための最初のパイプラインを提示する。
- 参考スコア(独自算出の注目度): 53.99620546358492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world use cases often present RAG systems with complex queries for which relevant information is missing from the corpus or is incomplete. In these settings, RAG systems must be able to reject unanswerable, out-of-scope queries and identify failures of retrieval and multi-hop reasoning. Despite this, existing RAG benchmarks rarely reflect realistic task complexity for multi-hop or out-of-scope questions, which often can be cheated via disconnected reasoning (i.e., solved without genuine multi-hop inference) or require only simple factual recall. This limits the ability for such benchmarks to uncover limitations of existing RAG systems. To address this gap, we present the first pipeline for automatic, difficulty-controlled creation of un$\underline{c}$heatable, $\underline{r}$ealistic, $\underline{u}$nanswerable, and $\underline{m}$ulti-hop $\underline{q}$uerie$\underline{s}$ (CRUMQs), adaptable to any corpus and domain. We use our pipeline to create CRUMQs over two popular RAG datasets and demonstrate its effectiveness via benchmark experiments on leading retrieval-augmented LLMs. Results show that compared to prior RAG benchmarks, CRUMQs are highly challenging for RAG systems and achieve up to 81.0\% reduction in cheatability scores. More broadly, our pipeline offers a simple way to enhance benchmark difficulty and realism and drive development of more capable RAG systems.
- Abstract(参考訳): 実世界のユースケースでは、複雑なクエリを持つRAGシステムが存在し、関連する情報がコーパスから欠落したり、不完全であったりすることが多い。
これらの設定では、RAGシステムは解決不可能なスコープ外クエリを拒否し、検索の失敗とマルチホップ推論を識別できなければならない。
それにもかかわらず、既存のRAGベンチマークは、マルチホップやスコープ外質問の現実的なタスクの複雑さを反映することは滅多になく、これはしばしば非連結推論(すなわち、真のマルチホップ推論なしで解決される)や単純なファクトリコールのみを必要とする。
これにより、既存のRAGシステムの制限を明らかにすることができる。
このギャップに対処するため、un$\underline{c}$heatable, $\underline{r}$ealistic, $\underline{u}$nanswerable, $\underline{m}$ulti-hop $\underline{q}$uerie$\underline{s}$ (CRUMQs) の自動生成のための最初のパイプラインを提示します。
パイプラインを使用して、2つの人気のあるRAGデータセット上でCRUMQを作成し、主要な検索拡張LDMに関するベンチマーク実験を通じてその効果を実証します。
その結果、従来のRAGベンチマークと比較すると、CRUMQはRAGシステムでは極めて困難であり、不正性スコアの最大81.0\%の削減を実現していることがわかった。
より広範に、私たちのパイプラインは、ベンチマークの難しさとリアリズムを高め、より有能なRAGシステムの開発を促進する簡単な方法を提供します。
関連論文リスト
- RAGVUE: A Diagnostic View for Explainable and Automated Evaluation of Retrieval-Augmented Generation [1.564663326217051]
RAGVUEはRetrieval-Augmented Generation (RAG)システムを評価するためのフレームワークである。
RAGの振る舞いを検索品質、回答の妥当性と完全性、厳格なクレームレベルの忠実さ、および判断の校正に分解する。
RAGVUEは手動のメートル法選択と完全に自動化されたエージェント評価の両方をサポートしている。
論文 参考訳(メタデータ) (2025-12-03T07:42:49Z) - PluriHop: Exhaustive, Recall-Sensitive QA over Distractor-Rich Corpora [0.0]
PluriHopWINDは、ドイツ語と英語の191の現実世界の風力産業レポートから構築された48のプルホップ質問の診断用多言語データセットである。
PluriHopWIND は他の一般的なデータセットよりも 8-40% の反復性を示し,その有効性を示す。
本稿では,RAGアーキテクチャであるPluriHopRAGを提案する。
論文 参考訳(メタデータ) (2025-10-16T07:22:58Z) - FrugalRAG: Learning to retrieve and reason for multi-hop QA [10.193015391271535]
RAGメトリクスを改善するために大規模な微調整は必要ない。
監督されたRLベースの微調整は、粗悪さの観点からRAGに役立つ。
論文 参考訳(メタデータ) (2025-07-10T11:02:13Z) - LTRR: Learning To Rank Retrievers for LLMs [53.285436927963865]
ルーティングベースのRAGシステムは、単一リトリバーベースのシステムよりも優れていることを示す。
パフォーマンス向上は、特にAnswer Correctness(AC)メトリックでトレーニングされたモデルで顕著である。
SIGIR 2025 LiveRAG チャレンジの一環として,提案システムを用いて提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-16T17:53:18Z) - R3-RAG: Learning Step-by-Step Reasoning and Retrieval for LLMs via Reinforcement Learning [60.17074283370798]
Retrieval-Augmented Generation (RAG)は、外部知識をLLM(Large Language Models)と統合し、事実の正しさと幻覚を高める。
我々は、 $textbfR$einforcement Learning を用いて LLM に $textbfR$eason と $textbfR$etrieve を段階的に学習させる $textbfR3-RAG$ を提案する。
論文 参考訳(メタデータ) (2025-05-26T12:25:37Z) - Knowing You Don't Know: Learning When to Continue Search in Multi-round RAG through Self-Practicing [4.874077691069634]
Retrieval Augmented Generation (RAG)は、言語モデルの知識を高め、AI生成幻覚を減らす強力な能力を示している。
現在のマルチラウンドRAGシステムは、十分な情報が既に取得されている場合でも検索を続けることができる。
本稿では,RAGシステムの自己認識と多ラウンド検索機能を強化するための新しいフレームワークSIM-RAGを提案する。
論文 参考訳(メタデータ) (2025-05-05T17:39:35Z) - Relevance Isn't All You Need: Scaling RAG Systems With Inference-Time Compute Via Multi-Criteria Reranking [0.0]
標準的なRAGパイプラインでは、コンテキスト関連性のみを最大化することで、ダウンストリーム応答の品質を低下させることができることを示す。
本稿では,Rerankyond reLevance (REBEL)を導入し,推論時間計算でRAGシステムをスケールできるようにする。
論文 参考訳(メタデータ) (2025-03-14T00:19:39Z) - Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generationは、大規模な言語モデル幻覚を緩和するための強力なアプローチとして登場した。
既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。
本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:56:20Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。
我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文 参考訳(メタデータ) (2024-12-16T19:11:55Z) - Toward Optimal Search and Retrieval for RAG [39.69494982983534]
Retrieval-augmented Generation (RAG)は、Large Language Models (LLM)に関連するメモリ関連の課題に対処するための有望な方法である。
ここでは、質問回答(QA)などの共通タスクに対して、レトリバーをRAGパイプラインに最適化する方法を理解することを目的としている。
論文 参考訳(メタデータ) (2024-11-11T22:06:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。