論文の概要: Investigating the Robustness of Retrieval-Augmented Generation at the Query Level
- arxiv url: http://arxiv.org/abs/2507.06956v1
- Date: Wed, 09 Jul 2025 15:39:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.647727
- Title: Investigating the Robustness of Retrieval-Augmented Generation at the Query Level
- Title(参考訳): クエリレベルでの検索拡張生成のロバスト性の検討
- Authors: Sezen Perçin, Xin Su, Qutub Sha Syed, Phillip Howard, Aleksei Kuvshinov, Leo Schwinn, Kay-Ulrich Scholl,
- Abstract要約: 推論中に外部知識を動的に組み込むソリューションとして、検索拡張生成(RAG)が提案されている。
その約束にもかかわらず、RAGシステムは実際的な課題に直面し、特に、正確な検索のために入力クエリの品質に強く依存する。
- 参考スコア(独自算出の注目度): 4.3028340012580975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are very costly and inefficient to update with new information. To address this limitation, retrieval-augmented generation (RAG) has been proposed as a solution that dynamically incorporates external knowledge during inference, improving factual consistency and reducing hallucinations. Despite its promise, RAG systems face practical challenges-most notably, a strong dependence on the quality of the input query for accurate retrieval. In this paper, we investigate the sensitivity of different components in the RAG pipeline to various types of query perturbations. Our analysis reveals that the performance of commonly used retrievers can degrade significantly even under minor query variations. We study each module in isolation as well as their combined effect in an end-to-end question answering setting, using both general-domain and domain-specific datasets. Additionally, we propose an evaluation framework to systematically assess the query-level robustness of RAG pipelines and offer actionable recommendations for practitioners based on the results of more than 1092 experiments we performed.
- Abstract(参考訳): 大規模言語モデル(LLM)は、新しい情報で更新するのに非常にコストがかかり非効率である。
この制限に対処するために、推論中に外部知識を動的に取り入れ、事実整合性を改善し、幻覚を減らすソリューションとして、検索強化生成(RAG)が提案されている。
その約束にもかかわらず、RAGシステムは実際的な課題に直面し、特に、正確な検索のために入力クエリの品質に強く依存する。
本稿では,様々な種類の問合せ摂動に対するRAGパイプラインの異なる成分の感度について検討する。
分析の結果,クエリのばらつきが小さい場合でも,一般的に使用される検索器の性能は著しく低下することがわかった。
汎用ドメインとドメイン固有のデータセットの両方を用いて、各モジュールを分離して検討し、エンドツーエンドの質問応答設定でそれらの組み合わせの効果について検討する。
さらに, RAGパイプラインの問合せレベルの堅牢性を体系的に評価し, 1092以上の実験結果に基づいて, 実践者に対して実用的なレコメンデーションを行うための評価フレームワークを提案する。
関連論文リスト
- MIRAGE: A Metric-Intensive Benchmark for Retrieval-Augmented Generation Evaluation [8.950307082012763]
大規模言語モデル(LLM)の生成能力向上に有効な手法として,検索拡張生成(RAG)が注目されている。
本稿では,RAG評価に特化して設計された質問応答データセットであるMIRAGEについて述べる。
MIRAGEは、37,800エントリの検索プールにマッピングされた7,560のキュレートされたインスタンスで構成され、検索と生成の両方のタスクの効率的かつ正確な評価を可能にする。
論文 参考訳(メタデータ) (2025-04-23T23:05:46Z) - Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。
我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文 参考訳(メタデータ) (2024-12-16T19:11:55Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。