論文の概要: OmniBench-RAG: A Multi-Domain Evaluation Platform for Retrieval-Augmented Generation Tools
- arxiv url: http://arxiv.org/abs/2508.05650v1
- Date: Sat, 26 Jul 2025 03:29:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 22:58:06.116102
- Title: OmniBench-RAG: A Multi-Domain Evaluation Platform for Retrieval-Augmented Generation Tools
- Title(参考訳): OmniBench-RAG:Retrieval-Augmented Generation Toolsのためのマルチドメイン評価プラットフォーム
- Authors: Jiaxuan Liang, Shide Zhou, Kailong Wang,
- Abstract要約: 本稿では,RAGシステム評価のための自動プラットフォームであるOmniBench RAGを紹介する。
このプラットフォームは、9つの知識分野にまたがる精度と効率の次元でパフォーマンスの向上を定量化する。
評価の結果, RAGの有効性は, 文化の顕著な向上から数学の低下に至るまで, 顕著な変動がみられた。
- 参考スコア(独自算出の注目度): 0.11704154007740833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Retrieval Augmented Generation (RAG) is now widely adopted to enhance LLMs, evaluating its true performance benefits in a reproducible and interpretable way remains a major hurdle. Existing methods often fall short: they lack domain coverage, employ coarse metrics that miss sub document precision, and fail to capture computational trade offs. Most critically, they provide no standardized framework for comparing RAG effectiveness across different models and domains. We introduce OmniBench RAG, a novel automated platform for multi domain evaluation of RAG systems. The platform quantifies performance gains across accuracy and efficiency dimensions, spanning nine knowledge fields including culture, geography, and health. We introduce two standardized metrics: Improvements (accuracy gains) and Transformation (efficiency differences between pre RAG and post RAG models), enabling reproducible comparisons across models and tasks. The platform features dynamic test generation, modular evaluation pipelines, and automated knowledge base construction. Our evaluation reveals striking variability in RAG effectiveness, from significant gains in culture to declines in mathematics, highlighting the critical importance of systematic, domain aware assessment. A demonstration video is available at: https://www.youtube.com/watch?v=BZx83QFcTCI. Code and datasets: https://github.com/Garnett-Liang/Omnibench-RAG.
- Abstract(参考訳): Retrieval Augmented Generation (RAG)はLLMの強化に広く採用されているが、再現可能で解釈可能な方法でその真のパフォーマンスの利点を評価することは大きなハードルである。
ドメインカバレッジが欠如し、サブドキュメントの精度を損なうような粗いメトリクスを採用し、計算トレードオフのキャプチャに失敗する。
最も重要なのは、異なるモデルやドメイン間でRAGの有効性を比較するための標準化されたフレームワークを提供しないことです。
我々は,RAGシステムのマルチドメイン評価のための新しい自動化プラットフォームであるOmniBench RAGを紹介する。
このプラットフォームは、精度と効率の面でパフォーマンスの向上を定量化し、文化、地理、健康を含む9つの知識分野にまたがる。
改善(精度向上)と変換(RAG前モデルとRAG後モデルとの効率差)の2つの標準メトリクスを導入し、モデルとタスク間で再現可能な比較を可能にする。
プラットフォームには動的テスト生成、モジュール評価パイプライン、知識ベースの自動構築が含まれている。
評価の結果,RAGの有効性は,文化の顕著な向上から数学の低下まで顕著に変化しており,体系的,ドメイン意識的な評価の重要性が浮き彫りになっている。
デモビデオは、https://www.youtube.com/watch?
v=BZx83QFcTCI。
コードとデータセット:https://github.com/Garnett-Liang/Omnibench-RAG。
関連論文リスト
- RAG in the Wild: On the (In)effectiveness of LLMs with Mixture-of-Knowledge Retrieval Augmentation [45.679455112940175]
Retrieval-augmented Generation (RAG)は、推論時に取得した外部知識を統合することにより、大規模言語モデル(LLM)を強化する。
我々は,知識の混合を伴う大規模データストアであるMassiveDSを用いてRAGシステムを評価し,限界点を特定した。
論文 参考訳(メタデータ) (2025-07-26T20:57:24Z) - Semantic Tokens in Retrieval Augmented Generation [0.0]
本稿では,確率的RAGシステムと決定論的に検証可能な応答のギャップを埋めるための評価モジュールを導入した新しい比較RAGシステムを提案する。
このフレームワークは、高い精度と検証可能性を必要とする領域において、より信頼性が高くスケーラブルな質問応答アプリケーションを実現する。
論文 参考訳(メタデータ) (2024-12-03T16:52:06Z) - A Hybrid RAG System with Comprehensive Enhancement on Complex Reasoning [13.112610550392537]
Retrieval-augmented Generation (RAG) は、大規模言語モデルでその精度を高め、外部知識ベースを統合することで幻覚を低減できるフレームワークである。
本稿では,検索品質,拡張推論能力,精巧な数値能力など,総合的な最適化によって強化されたハイブリッドRAGシステムを提案する。
論文 参考訳(メタデータ) (2024-08-09T15:53:55Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - RAGGED: Towards Informed Design of Scalable and Stable RAG Systems [51.171355532527365]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで言語モデルを強化する。
RAGGEDは、RAGシステムを体系的に評価するためのフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T02:26:31Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。