論文の概要: Evaluating Retrieval-Augmented Generation Systems on Unanswerable, Uncheatable, Realistic, Multi-hop Queries
- arxiv url: http://arxiv.org/abs/2510.11956v1
- Date: Mon, 13 Oct 2025 21:38:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.099942
- Title: Evaluating Retrieval-Augmented Generation Systems on Unanswerable, Uncheatable, Realistic, Multi-hop Queries
- Title(参考訳): 未解決, 処理不能, 現実的, マルチホップクエリにおける検索型生成システムの評価
- Authors: Gabrielle Kaili-May Liu, Bryan Li, Arman Cohan, William Gantt Walden, Eugene Yang,
- Abstract要約: 実世界のユースケースでは、複雑なクエリを持つRAGシステムが存在し、関連する情報がコーパスから欠落したり、不完全であったりすることが多い。
既存のRAGベンチマークは、マルチホップやスコープ外の質問に対して、現実的なタスクの複雑さを反映することはめったにない。
un$underlinec$heatable, $underliner$ealistic, $underlineu$nanswerable, $underlinem$ulti-hopの自動生成のための最初のパイプラインを提示する。
- 参考スコア(独自算出の注目度): 53.99620546358492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world use cases often present RAG systems with complex queries for which relevant information is missing from the corpus or is incomplete. In these settings, RAG systems must be able to reject unanswerable, out-of-scope queries and identify failures of retrieval and multi-hop reasoning. Despite this, existing RAG benchmarks rarely reflect realistic task complexity for multi-hop or out-of-scope questions, which often can be cheated via disconnected reasoning (i.e., solved without genuine multi-hop inference) or require only simple factual recall. This limits the ability for such benchmarks to uncover limitations of existing RAG systems. To address this gap, we present the first pipeline for automatic, difficulty-controlled creation of un$\underline{c}$heatable, $\underline{r}$ealistic, $\underline{u}$nanswerable, and $\underline{m}$ulti-hop $\underline{q}$uerie$\underline{s}$ (CRUMQs), adaptable to any corpus and domain. We use our pipeline to create CRUMQs over two popular RAG datasets and demonstrate its effectiveness via benchmark experiments on leading retrieval-augmented LLMs. Results show that compared to prior RAG benchmarks, CRUMQs are highly challenging for RAG systems and achieve up to 81.0\% reduction in cheatability scores. More broadly, our pipeline offers a simple way to enhance benchmark difficulty and realism and drive development of more capable RAG systems.
- Abstract(参考訳): 実世界のユースケースでは、複雑なクエリを持つRAGシステムが存在し、関連する情報がコーパスから欠落したり、不完全であったりすることが多い。
これらの設定では、RAGシステムは解決不可能なスコープ外クエリを拒否し、検索の失敗とマルチホップ推論を識別できなければならない。
それにもかかわらず、既存のRAGベンチマークは、マルチホップやスコープ外質問の現実的なタスクの複雑さを反映することは滅多になく、これはしばしば非連結推論(すなわち、真のマルチホップ推論なしで解決される)や単純なファクトリコールのみを必要とする。
これにより、既存のRAGシステムの制限を明らかにすることができる。
このギャップに対処するため、un$\underline{c}$heatable, $\underline{r}$ealistic, $\underline{u}$nanswerable, $\underline{m}$ulti-hop $\underline{q}$uerie$\underline{s}$ (CRUMQs) の自動生成のための最初のパイプラインを提示します。
パイプラインを使用して、2つの人気のあるRAGデータセット上でCRUMQを作成し、主要な検索拡張LDMに関するベンチマーク実験を通じてその効果を実証します。
その結果、従来のRAGベンチマークと比較すると、CRUMQはRAGシステムでは極めて困難であり、不正性スコアの最大81.0\%の削減を実現していることがわかった。
より広範に、私たちのパイプラインは、ベンチマークの難しさとリアリズムを高め、より有能なRAGシステムの開発を促進する簡単な方法を提供します。
関連論文リスト
- FrugalRAG: Learning to retrieve and reason for multi-hop QA [10.193015391271535]
RAGメトリクスを改善するために大規模な微調整は必要ない。
監督されたRLベースの微調整は、粗悪さの観点からRAGに役立つ。
論文 参考訳(メタデータ) (2025-07-10T11:02:13Z) - LTRR: Learning To Rank Retrievers for LLMs [53.285436927963865]
ルーティングベースのRAGシステムは、単一リトリバーベースのシステムよりも優れていることを示す。
パフォーマンス向上は、特にAnswer Correctness(AC)メトリックでトレーニングされたモデルで顕著である。
SIGIR 2025 LiveRAG チャレンジの一環として,提案システムを用いて提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-16T17:53:18Z) - Knowing You Don't Know: Learning When to Continue Search in Multi-round RAG through Self-Practicing [4.874077691069634]
Retrieval Augmented Generation (RAG)は、言語モデルの知識を高め、AI生成幻覚を減らす強力な能力を示している。
現在のマルチラウンドRAGシステムは、十分な情報が既に取得されている場合でも検索を続けることができる。
本稿では,RAGシステムの自己認識と多ラウンド検索機能を強化するための新しいフレームワークSIM-RAGを提案する。
論文 参考訳(メタデータ) (2025-05-05T17:39:35Z) - Relevance Isn't All You Need: Scaling RAG Systems With Inference-Time Compute Via Multi-Criteria Reranking [0.0]
標準的なRAGパイプラインでは、コンテキスト関連性のみを最大化することで、ダウンストリーム応答の品質を低下させることができることを示す。
本稿では,Rerankyond reLevance (REBEL)を導入し,推論時間計算でRAGシステムをスケールできるようにする。
論文 参考訳(メタデータ) (2025-03-14T00:19:39Z) - Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generationは、大規模な言語モデル幻覚を緩和するための強力なアプローチとして登場した。
既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。
本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:56:20Z) - Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。
我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文 参考訳(メタデータ) (2024-12-16T19:11:55Z) - Toward Optimal Search and Retrieval for RAG [39.69494982983534]
Retrieval-augmented Generation (RAG)は、Large Language Models (LLM)に関連するメモリ関連の課題に対処するための有望な方法である。
ここでは、質問回答(QA)などの共通タスクに対して、レトリバーをRAGパイプラインに最適化する方法を理解することを目的としている。
論文 参考訳(メタデータ) (2024-11-11T22:06:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。