Fugu-MT 論文翻訳(概要): EncouRAGe: Evaluating RAG Local, Fast, and Reliable

論文の概要: EncouRAGe: Evaluating RAG Local, Fast, and Reliable

arxiv url: http://arxiv.org/abs/2511.04696v1
Date: Fri, 31 Oct 2025 15:19:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-10 21:00:44.528048
Title: EncouRAGe: Evaluating RAG Local, Fast, and Reliable
Title（参考訳）: EncouRAGe: RAGのローカル、高速、信頼性を評価する
Authors: Jan Strich, Adeline Scharfenberg, Chris Biemann, Martin Semmann,
Abstract要約: EncouRAGeは、Retrieval-Augmented Generation (RAG)システムの開発と評価を効率化するために設計されたPythonフレームワークである。このフレームワークは科学的、多様な評価指標とローカルデプロイメントを強調しており、研究者はRAG内のデータセットを効率的に評価することができる。
参考スコア（独自算出の注目度）: 18.46710400838861
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce EncouRAGe, a comprehensive Python framework designed to streamline the development and evaluation of Retrieval-Augmented Generation (RAG) systems using Large Language Models (LLMs) and Embedding Models. EncouRAGe comprises five modular and extensible components: Type Manifest, RAG Factory, Inference, Vector Store, and Metrics, facilitating flexible experimentation and extensible development. The framework emphasizes scientific reproducibility, diverse evaluation metrics, and local deployment, enabling researchers to efficiently assess datasets within RAG workflows. This paper presents implementation details and an extensive evaluation across multiple benchmark datasets, including 25k QA pairs and over 51k documents. Our results show that RAG still underperforms compared to the Oracle Context, while Hybrid BM25 consistently achieves the best results across all four datasets. We further examine the effects of reranking, observing only marginal performance improvements accompanied by higher response latency.
Abstract（参考訳）: 本稿では,Large Language Models (LLM) と Embedding Models を用いた検索拡張生成(RAG)システムの開発と評価を効率化する,包括的なPythonフレームワークであるEncouRAGeを紹介する。 EncouRAGeは、Type Manifest、RAG Factory、推論、Vector Store、Metricsの5つのモジュールで拡張可能なコンポーネントで構成されており、柔軟な実験と拡張可能な開発を容易にする。このフレームワークは科学的再現性、多様な評価指標、ローカルデプロイメントを強調しており、研究者はRAGワークフロー内のデータセットを効率的に評価することができる。本稿では,25kのQAペアと51k以上のドキュメントを含む,複数のベンチマークデータセットに対する実装の詳細と広範な評価について述べる。我々の結果によると、RAGはOracle Contextと比較してまだパフォーマンスが劣っているのに対し、Hybrid BM25は4つのデータセットで常に最高の結果を得る。さらに、応答遅延の増大に伴う限界性能の改善のみを観察し、再ランク付けの効果について検討する。

関連論文リスト

RAG-IGBench: Innovative Evaluation for RAG-based Interleaved Generation in Open-domain Question Answering [50.42577862494645]
本稿では,RAG-IG(Retrieval-Augmented Generation)に基づくインターリーブドジェネレーション(Interleaved Generation)の課題を評価するためのベンチマークであるRAG-IGBenchを提案する。 RAG-IGは、MLLM(Multimodal large language model)と検索機構を統合し、モデルがコヒーレントなマルチモーダルコンテンツを生成するための外部画像テキスト情報にアクセスできるようにする。
論文参考訳（メタデータ） (2025-10-11T03:06:39Z)
mmRAG: A Modular Benchmark for Retrieval-Augmented Generation over Text, Tables, and Knowledge Graphs [11.861763118322136]
マルチモーダルRAGシステムを評価するためのモジュール型ベンチマークであるmmRAGを紹介する。我々のベンチマークでは、テキスト、テーブル、知識グラフにまたがる6つの多様な問合せデータセットからのクエリを統合する。文書関連性を注釈化し、データセット関連性を導出するための標準情報検索手順に従う。
論文参考訳（メタデータ） (2025-05-16T12:31:29Z)
MIRAGE: A Metric-Intensive Benchmark for Retrieval-Augmented Generation Evaluation [8.950307082012763]
大規模言語モデル(LLM)の生成能力向上に有効な手法として,検索拡張生成(RAG)が注目されている。本稿では,RAG評価に特化して設計された質問応答データセットであるMIRAGEについて述べる。 MIRAGEは、37,800エントリの検索プールにマッピングされた7,560のキュレートされたインスタンスで構成され、検索と生成の両方のタスクの効率的かつ正確な評価を可能にする。
論文参考訳（メタデータ） (2025-04-23T23:05:46Z)
RAG-Reward: Optimizing RAG with Reward Modeling and RLHF [8.911260109659489]
Retrieval-augmented Generation (RAG)は、関連知識と最新の知識でLarge Language Models (LLM)を強化する。 RAG最適化のための強化学習における報酬モデルの役割は未定である。報酬モデルを開発するためのフレームワークである textbfRAG-Reward を導入する。
論文参考訳（メタデータ） (2025-01-22T22:59:19Z)
OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。我々のベンチマークは多次元評価フレームワークによって特徴づけられる。実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文参考訳（メタデータ） (2024-12-17T15:38:42Z)
Towards Optimizing a Retrieval Augmented Generation using Large Language Model on Academic Data [4.322454918650575]
本研究では,大規模技術大学における各種研究プログラムを対象としたデータ検索に焦点を当てた。オープンソース(Llama2、Mistralなど)とクローズドソース(GPT-3.5、GPT-4など)の統合を探ることで、ドメイン固有のコンテキストにおけるRAGフレームワークの適用と最適化に関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-11-13T08:43:37Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文参考訳（メタデータ） (2024-07-02T17:59:17Z)
BERGEN: A Benchmarking Library for Retrieval-Augmented Generation [26.158785168036662]
Retrieval-Augmented Generationは、外部知識による大規模言語モデルの拡張を可能にする。一貫性のないベンチマークは、アプローチを比較し、パイプライン内の各コンポーネントの影響を理解する上で大きな課題となる。本研究では,RAGを体系的に評価するための基礎となるベストプラクティスと,RAG実験を標準化した再現可能な研究用ライブラリであるBERGENについて検討する。
論文参考訳（メタデータ） (2024-07-01T09:09:27Z)
FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research [70.6584488911715]
検索増強世代(RAG)は、かなりの研究関心を集めている。既存のRAGツールキットは、しばしば重くて柔軟であり、研究者のカスタマイズのニーズを満たすことができない。我々のツールキットは16の高度なRAGメソッドを実装し、38のベンチマークデータセットを収集し、整理した。
論文参考訳（メタデータ） (2024-05-22T12:12:40Z)
Evaluating Retrieval Quality in Retrieval-Augmented Generation [21.115495457454365]
従来のエンドツーエンド評価手法は計算コストが高い。本稿では,検索リストの各文書をRAGシステム内の大規模言語モデルで個別に利用するeRAGを提案する。 eRAGは、ランタイムを改善し、エンドツーエンド評価の最大50倍のGPUメモリを消費する、大きな計算上のアドバンテージを提供する。
論文参考訳（メタデータ） (2024-04-21T21:22:28Z)
CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文参考訳（メタデータ） (2024-01-30T14:25:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。