論文の概要: RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems
- arxiv url: http://arxiv.org/abs/2510.13910v1
- Date: Wed, 15 Oct 2025 04:13:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.534506
- Title: RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems
- Title(参考訳): RAGCap-Bench: エージェント検索拡張生成システムにおけるLLMのベンチマーク機能
- Authors: Jingru Lin, Chen Zhang, Stephen Y. Liu, Haizhou Li,
- Abstract要約: Retrieval-Augmented Generation (RAG) はLarge Language Models (LLM) の重要な制限を緩和する
最近の研究はエージェントRAGシステムを通じてこのパラダイムを拡張しており、LLMは複雑なクエリを反復的に計画、検索、推論するエージェントとして機能する。
本稿では,エージェントRAGにおける中間タスクの微粒化評価のための機能指向ベンチマークであるRAGCap-Benchを提案する。
- 参考スコア(独自算出の注目度): 31.4909149697414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) mitigates key limitations of Large Language Models (LLMs)-such as factual errors, outdated knowledge, and hallucinations-by dynamically retrieving external information. Recent work extends this paradigm through agentic RAG systems, where LLMs act as agents to iteratively plan, retrieve, and reason over complex queries. However, these systems still struggle with challenging multi-hop questions, and their intermediate reasoning capabilities remain underexplored. To address this, we propose RAGCap-Bench, a capability-oriented benchmark for fine-grained evaluation of intermediate tasks in agentic RAG workflows. We analyze outputs from state-of-the-art systems to identify common tasks and the core capabilities required for their execution, then construct a taxonomy of typical LLM errors to design targeted evaluation questions. Experiments show that "slow-thinking" models with stronger RAGCap performance achieve better end-to-end results, underscoring the benchmark's validity and the importance of enhancing these intermediate capabilities.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、事実エラー、古い知識、幻覚など、大規模言語モデル(LLM)の重要な制限を動的に取り出すことで緩和する。
最近の研究はエージェントRAGシステムを通じてこのパラダイムを拡張しており、LLMは複雑なクエリを反復的に計画、検索、推論するエージェントとして機能する。
しかし、これらのシステムは依然として挑戦的なマルチホップ問題に悩まされており、その中間的推論能力は未解明のままである。
そこで本研究では,エージェントRAGワークフローにおける中間タスクの微粒化評価のための機能指向ベンチマークであるRAGCap-Benchを提案する。
我々は、最先端システムからの出力を分析し、その実行に必要な共通タスクとコア機能を特定し、典型的なLCMエラーの分類を作成し、対象とする評価質問を設計する。
実験の結果,RAGCapの性能が向上した"スローシンキング"モデルでは,ベンチマークの有効性とこれらの中間能力の向上の重要性が強調され,エンド・ツー・エンドの結果が向上した。
関連論文リスト
- Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG [0.8463972278020965]
大規模言語モデル(LLM)は、人間のようなテキスト生成や自然言語理解を可能にすることによって、人工知能(AI)に革命をもたらした。
Retrieval Augmented Generation (RAG) がソリューションとして登場し、リアルタイムデータ検索を統合して文脈に関連のある応答を提供することでLLMを強化している。
Agentic Retrieval-Augmented Generation (RAG)は、自律的なAIエージェントをRAGパイプラインに埋め込むことによって、これらの制限を超越する。
論文 参考訳(メタデータ) (2025-01-15T20:40:25Z) - A Survey of Query Optimization in Large Language Models [10.255235456427037]
RAGは、動的に検索し、最新の関連情報を活用することによって、大規模言語モデルの限界を緩和する。
QOは重要な要素として現れ、RAGの検索段階の有効性を決定する上で重要な役割を担っている。
論文 参考訳(メタデータ) (2024-12-23T13:26:04Z) - RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.08223786819532]
既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。
検索情報を統合した新しいRAG手法である textbfRAG-Star を提案する。
Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-12-17T13:05:36Z) - RAG-Modulo: Solving Sequential Tasks using Experience, Critics, and Language Models [5.0741409008225755]
大規模言語モデル(LLM)は、ロボットの課題を解決するための有望なツールとして登場した。
既存のLSMベースのエージェントは、過去の相互作用を維持および学習する能力に欠ける。
RAG-Modulo は,過去のインタラクションを記憶した LLM ベースのエージェントを強化し,エージェントの判断を評価するための批判を取り入れたフレームワークである。
論文 参考訳(メタデータ) (2024-09-18T20:03:32Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。