論文の概要: Overcoming the "Impracticality" of RAG: Proposing a Real-World Benchmark and Multi-Dimensional Diagnostic Framework
- arxiv url: http://arxiv.org/abs/2604.02640v1
- Date: Fri, 03 Apr 2026 02:10:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.27706
- Title: Overcoming the "Impracticality" of RAG: Proposing a Real-World Benchmark and Multi-Dimensional Diagnostic Framework
- Title(参考訳): RAGの「即効性」を克服する -実世界のベンチマークと多次元診断フレームワークの提案-
- Authors: Kenichirou Narita, Siqi Peng, Taku Fukui, Moyuru Yamada, Satoshi Munakata, Satoru Takahashi,
- Abstract要約: 企業環境における検索・拡張生成システムの性能評価は多次元・複合的要因によって管理される。
既存の学術ベンチマークでは、これらのインターロックの課題を体系的に診断することができない。
本研究は, 4軸の難易度分類を定義し, 企業RAGベンチマークに組み込んで, 潜在的なシステムの弱点を診断する多次元診断フレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.2782316435989562
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Performance evaluation of Retrieval-Augmented Generation (RAG) systems within enterprise environments is governed by multi-dimensional and composite factors extending far beyond simple final accuracy checks. These factors include reasoning complexity, retrieval difficulty, the diverse structure of documents, and stringent requirements for operational explainability. Existing academic benchmarks fail to systematically diagnose these interlocking challenges, resulting in a critical gap where models achieving high performance scores fail to meet the expected reliability in practical deployment. To bridge this discrepancy, this research proposes a multi-dimensional diagnostic framework by defining a four-axis difficulty taxonomy and integrating it into an enterprise RAG benchmark to diagnose potential system weaknesses.
- Abstract(参考訳): 企業環境におけるRAG(Retrieval-Augmented Generation)システムの性能評価は、単純な最終精度チェックを超えて、多次元および複合的な要因によって管理される。
これらの要因には、推論の複雑さ、検索の難しさ、文書の構造の多様性、運用説明可能性に対する厳密な要件などが含まれる。
既存の学術ベンチマークでは、これらのインターロックの課題を体系的に診断することができず、結果として、高いパフォーマンスのスコアを達成するモデルが、実用的なデプロイメントにおいて期待される信頼性を達成できない、という重大なギャップが生じる。
この差を埋めるために,本研究では,4軸の難易度分類を定義し,企業RAGベンチマークに統合し,潜在的なシステムの弱点を診断する多次元診断フレームワークを提案する。
関連論文リスト
- BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? [61.247730037229815]
BeyondSWEは2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する包括的なベンチマークです。
外部知識の役割を解明するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。
この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
論文 参考訳(メタデータ) (2026-03-03T17:52:01Z) - Search-Based Risk Feature Discovery in Document Structure Spaces under a Constrained Budget [1.2507839249605703]
限られた予算の下での早期のシステム検証は、多様な障害メカニズムを明らかにすることを義務付けている。
我々はこの課題を検索ベースソフトウェアテスト(SBST)問題として定式化する。
提案手法は文書構成の空間上で動作し,実際の故障条件を誘発する構造的アンフィスクな特徴のインスタンスを描画する。
論文 参考訳(メタデータ) (2026-01-29T12:14:18Z) - A Rigorous Benchmark with Multidimensional Evaluation for Deep Research Agents: From Answers to Reports [24.09178055088843]
Deep Research Agents (DRA)は、タスク分解、クロスソース検索、多段階推論、構造化出力の能力を示す。
本稿では,DRAとレポートスタイルの応答に適した厳密なベンチマークと多次元評価フレームワークを提案する。
このフレームワークは、DRAが生成した長期レポートの総合的な評価を可能にし、セマンティックな品質、トピックの焦点、検索の信頼性のための総合的なスコアリング指標を統合する。
論文 参考訳(メタデータ) (2025-10-02T16:40:02Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - GRADE: Generating multi-hop QA and fine-gRAined Difficulty matrix for RAG Evaluation [5.002953635224383]
Retrieval-Augmented Generation (RAG) システムは知識集約型NLPタスクに広く採用されている。
現在の評価は、実世界のシナリオで必要とされる構造的な複雑さと多段階の推論を見落としていることが多い。
タスクの難易度を2次元でモデル化する新しい評価フレームワークであるtextscGRADEを提案する。
論文 参考訳(メタデータ) (2025-08-23T11:26:41Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - XRAG: eXamining the Core -- Benchmarking Foundational Components in Advanced Retrieval-Augmented Generation [36.84847781022757]
Retrieval-augmented Generation (RAG) は、Large Language Models (LLMs) の生成能力と関連するデータの検索を相乗化する
我々は,高度なRAGモジュールの基本コンポーネントの性能を徹底的に評価する,オープンソースのモジュールであるXRAGを紹介する。
論文 参考訳(メタデータ) (2024-12-20T03:37:07Z) - Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。
我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文 参考訳(メタデータ) (2024-12-16T19:11:55Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。