論文の概要: OmniBench-RAG: A Multi-Domain Evaluation Platform for Retrieval-Augmented Generation Tools
- arxiv url: http://arxiv.org/abs/2508.05650v1
- Date: Sat, 26 Jul 2025 03:29:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 22:58:06.116102
- Title: OmniBench-RAG: A Multi-Domain Evaluation Platform for Retrieval-Augmented Generation Tools
- Title(参考訳): OmniBench-RAG:Retrieval-Augmented Generation Toolsのためのマルチドメイン評価プラットフォーム
- Authors: Jiaxuan Liang, Shide Zhou, Kailong Wang,
- Abstract要約: 本稿では,RAGシステム評価のための自動プラットフォームであるOmniBench RAGを紹介する。
このプラットフォームは、9つの知識分野にまたがる精度と効率の次元でパフォーマンスの向上を定量化する。
評価の結果, RAGの有効性は, 文化の顕著な向上から数学の低下に至るまで, 顕著な変動がみられた。
- 参考スコア(独自算出の注目度): 0.11704154007740833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Retrieval Augmented Generation (RAG) is now widely adopted to enhance LLMs, evaluating its true performance benefits in a reproducible and interpretable way remains a major hurdle. Existing methods often fall short: they lack domain coverage, employ coarse metrics that miss sub document precision, and fail to capture computational trade offs. Most critically, they provide no standardized framework for comparing RAG effectiveness across different models and domains. We introduce OmniBench RAG, a novel automated platform for multi domain evaluation of RAG systems. The platform quantifies performance gains across accuracy and efficiency dimensions, spanning nine knowledge fields including culture, geography, and health. We introduce two standardized metrics: Improvements (accuracy gains) and Transformation (efficiency differences between pre RAG and post RAG models), enabling reproducible comparisons across models and tasks. The platform features dynamic test generation, modular evaluation pipelines, and automated knowledge base construction. Our evaluation reveals striking variability in RAG effectiveness, from significant gains in culture to declines in mathematics, highlighting the critical importance of systematic, domain aware assessment. A demonstration video is available at: https://www.youtube.com/watch?v=BZx83QFcTCI. Code and datasets: https://github.com/Garnett-Liang/Omnibench-RAG.
- Abstract(参考訳): Retrieval Augmented Generation (RAG)はLLMの強化に広く採用されているが、再現可能で解釈可能な方法でその真のパフォーマンスの利点を評価することは大きなハードルである。
ドメインカバレッジが欠如し、サブドキュメントの精度を損なうような粗いメトリクスを採用し、計算トレードオフのキャプチャに失敗する。
最も重要なのは、異なるモデルやドメイン間でRAGの有効性を比較するための標準化されたフレームワークを提供しないことです。
我々は,RAGシステムのマルチドメイン評価のための新しい自動化プラットフォームであるOmniBench RAGを紹介する。
このプラットフォームは、精度と効率の面でパフォーマンスの向上を定量化し、文化、地理、健康を含む9つの知識分野にまたがる。
改善(精度向上)と変換(RAG前モデルとRAG後モデルとの効率差)の2つの標準メトリクスを導入し、モデルとタスク間で再現可能な比較を可能にする。
プラットフォームには動的テスト生成、モジュール評価パイプライン、知識ベースの自動構築が含まれている。
評価の結果,RAGの有効性は,文化の顕著な向上から数学の低下まで顕著に変化しており,体系的,ドメイン意識的な評価の重要性が浮き彫りになっている。
デモビデオは、https://www.youtube.com/watch?
v=BZx83QFcTCI。
コードとデータセット:https://github.com/Garnett-Liang/Omnibench-RAG。
関連論文リスト
- Predict the Retrieval! Test time adaptation for Retrieval Augmented Generation [66.36556189794526]
TTARAGは、特殊ドメインにおけるRAGシステム性能を改善するために、推論中に言語モデルのパラメータを動的に更新するテスト時適応手法である。
提案手法では,モデルが検索した内容の予測を学習し,対象領域への自動パラメータ調整を可能にする。
論文 参考訳(メタデータ) (2026-01-16T17:07:01Z) - RAG-IGBench: Innovative Evaluation for RAG-based Interleaved Generation in Open-domain Question Answering [50.42577862494645]
本稿では,RAG-IG(Retrieval-Augmented Generation)に基づくインターリーブドジェネレーション(Interleaved Generation)の課題を評価するためのベンチマークであるRAG-IGBenchを提案する。
RAG-IGは、MLLM(Multimodal large language model)と検索機構を統合し、モデルがコヒーレントなマルチモーダルコンテンツを生成するための外部画像テキスト情報にアクセスできるようにする。
論文 参考訳(メタデータ) (2025-10-11T03:06:39Z) - RAG in the Wild: On the (In)effectiveness of LLMs with Mixture-of-Knowledge Retrieval Augmentation [45.679455112940175]
Retrieval-augmented Generation (RAG)は、推論時に取得した外部知識を統合することにより、大規模言語モデル(LLM)を強化する。
我々は,知識の混合を伴う大規模データストアであるMassiveDSを用いてRAGシステムを評価し,限界点を特定した。
論文 参考訳(メタデータ) (2025-07-26T20:57:24Z) - Attributing Response to Context: A Jensen-Shannon Divergence Driven Mechanistic Study of Context Attribution in Retrieval-Augmented Generation [52.3707788779464]
我々は、コンテキストに対する属性応答(ARC-JSD)のための新しいJensen-Shannon Divergence駆動方式を提案する。
ARC-JSDは、追加の微調整、勾配計算、サロゲートモデリングなしで、重要な文脈文の効率的かつ正確な識別を可能にする。
TyDi QA, Hotpot QA, Musique など,様々なスケールの命令調整 LLM を用いたRAG ベンチマークの評価により,精度が向上し,計算効率が向上した。
論文 参考訳(メタデータ) (2025-05-22T09:04:03Z) - Semantic Tokens in Retrieval Augmented Generation [0.0]
本稿では,確率的RAGシステムと決定論的に検証可能な応答のギャップを埋めるための評価モジュールを導入した新しい比較RAGシステムを提案する。
このフレームワークは、高い精度と検証可能性を必要とする領域において、より信頼性が高くスケーラブルな質問応答アプリケーションを実現する。
論文 参考訳(メタデータ) (2024-12-03T16:52:06Z) - A Hybrid RAG System with Comprehensive Enhancement on Complex Reasoning [13.112610550392537]
Retrieval-augmented Generation (RAG) は、大規模言語モデルでその精度を高め、外部知識ベースを統合することで幻覚を低減できるフレームワークである。
本稿では,検索品質,拡張推論能力,精巧な数値能力など,総合的な最適化によって強化されたハイブリッドRAGシステムを提案する。
論文 参考訳(メタデータ) (2024-08-09T15:53:55Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research [70.6584488911715]
検索増強世代(RAG)は、かなりの研究関心を集めている。
既存のRAGツールキットは、しばしば重くて柔軟であり、研究者のカスタマイズのニーズを満たすことができない。
我々のツールキットは16の高度なRAGメソッドを実装し、38のベンチマークデータセットを収集し、整理した。
論文 参考訳(メタデータ) (2024-05-22T12:12:40Z) - RAGGED: Towards Informed Design of Scalable and Stable RAG Systems [51.171355532527365]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで言語モデルを強化する。
RAGGEDは、RAGシステムを体系的に評価するためのフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T02:26:31Z) - Retrieval Augmented Generation Systems: Automatic Dataset Creation,
Evaluation and Boolean Agent Setup [5.464952345664292]
Retrieval Augmented Generation (RAG) システムは、Large-Language Model (LLM) 出力をドメイン固有データと時間機密データで拡張することで大きな人気を得ている。
本稿では,RAG戦略を定量的に比較するために,厳密なデータセット作成と評価のワークフローを提案する。
論文 参考訳(メタデータ) (2024-02-26T12:56:17Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。