Fugu-MT 論文翻訳(概要): Investigating the Robustness of Retrieval-Augmented Generation at the Query Level

論文の概要: Investigating the Robustness of Retrieval-Augmented Generation at the Query Level

arxiv url: http://arxiv.org/abs/2507.06956v1
Date: Wed, 09 Jul 2025 15:39:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-10 17:37:43.647727
Title: Investigating the Robustness of Retrieval-Augmented Generation at the Query Level
Title（参考訳）: クエリレベルでの検索拡張生成のロバスト性の検討
Authors: Sezen Perçin, Xin Su, Qutub Sha Syed, Phillip Howard, Aleksei Kuvshinov, Leo Schwinn, Kay-Ulrich Scholl,
Abstract要約: 推論中に外部知識を動的に組み込むソリューションとして、検索拡張生成(RAG)が提案されている。その約束にもかかわらず、RAGシステムは実際的な課題に直面し、特に、正確な検索のために入力クエリの品質に強く依存する。
参考スコア（独自算出の注目度）: 4.3028340012580975
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are very costly and inefficient to update with new information. To address this limitation, retrieval-augmented generation (RAG) has been proposed as a solution that dynamically incorporates external knowledge during inference, improving factual consistency and reducing hallucinations. Despite its promise, RAG systems face practical challenges-most notably, a strong dependence on the quality of the input query for accurate retrieval. In this paper, we investigate the sensitivity of different components in the RAG pipeline to various types of query perturbations. Our analysis reveals that the performance of commonly used retrievers can degrade significantly even under minor query variations. We study each module in isolation as well as their combined effect in an end-to-end question answering setting, using both general-domain and domain-specific datasets. Additionally, we propose an evaluation framework to systematically assess the query-level robustness of RAG pipelines and offer actionable recommendations for practitioners based on the results of more than 1092 experiments we performed.
Abstract（参考訳）: 大規模言語モデル(LLM)は、新しい情報で更新するのに非常にコストがかかり非効率である。この制限に対処するために、推論中に外部知識を動的に取り入れ、事実整合性を改善し、幻覚を減らすソリューションとして、検索強化生成(RAG)が提案されている。その約束にもかかわらず、RAGシステムは実際的な課題に直面し、特に、正確な検索のために入力クエリの品質に強く依存する。本稿では,様々な種類の問合せ摂動に対するRAGパイプラインの異なる成分の感度について検討する。分析の結果,クエリのばらつきが小さい場合でも,一般的に使用される検索器の性能は著しく低下することがわかった。汎用ドメインとドメイン固有のデータセットの両方を用いて、各モジュールを分離して検討し、エンドツーエンドの質問応答設定でそれらの組み合わせの効果について検討する。さらに, RAGパイプラインの問合せレベルの堅牢性を体系的に評価し, 1092以上の実験結果に基づいて, 実践者に対して実用的なレコメンデーションを行うための評価フレームワークを提案する。

関連論文リスト

Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。この調査は両鎖を統一的推論-検索の観点から合成する。
論文参考訳（メタデータ） (2025-07-13T03:29:41Z)
RARE: Retrieval-Aware Robustness Evaluation for Retrieval-Augmented Generation Systems [35.47591417637136]
Retrieval-Augmented Generation (RAG)は、回答の正確性と事実性を高める。既存の評価では、これらのシステムが現実世界のノイズ、内部と外部の取得したコンテキストの衝突、あるいは急速に変化する事実にどのように対処するかを検査することはめったにない。本稿では,動的で時間に敏感なコーパス上でのストレステストクエリと文書摂動を共同で行う,統一されたフレームワークと大規模ベンチマークであるRetrieval-Aware Robustness Evaluation (RARE)を紹介する。
論文参考訳（メタデータ） (2025-06-01T02:42:36Z)
MIRAGE: A Metric-Intensive Benchmark for Retrieval-Augmented Generation Evaluation [8.950307082012763]
大規模言語モデル(LLM)の生成能力向上に有効な手法として,検索拡張生成(RAG)が注目されている。本稿では,RAG評価に特化して設計された質問応答データセットであるMIRAGEについて述べる。 MIRAGEは、37,800エントリの検索プールにマッピングされた7,560のキュレートされたインスタンスで構成され、検索と生成の両方のタスクの効率的かつ正確な評価を可能にする。
論文参考訳（メタデータ） (2025-04-23T23:05:46Z)
Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文参考訳（メタデータ） (2025-01-24T09:12:52Z)
Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文参考訳（メタデータ） (2024-12-16T19:11:55Z)
CoFE-RAG: A Comprehensive Full-chain Evaluation Framework for Retrieval-Augmented Generation with Enhanced Data Diversity [23.48167670445722]
Retrieval-Augmented Generation (RAG) は、外部知識ソースから取得したコンテキストの助けを借りて、より正確で信頼性の高い回答を生成することを目的としている。これらのシステムの評価は, 以下の問題により, 依然として重要な研究領域である。 RAGパイプライン全体にわたって徹底的な評価を容易にするために,包括的全チェーン評価(CoFE-RAG)フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-16T05:20:32Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
RAGGED: Towards Informed Design of Scalable and Stable RAG Systems [51.171355532527365]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで言語モデルを強化する。 RAGGEDは、RAGシステムを体系的に評価するためのフレームワークである。
論文参考訳（メタデータ） (2024-03-14T02:26:31Z)
CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文参考訳（メタデータ） (2024-01-30T14:25:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。