論文の概要: EnterpriseRAG-Bench: A RAG Benchmark for Company Internal Knowledge
- arxiv url: http://arxiv.org/abs/2605.05253v1
- Date: Tue, 05 May 2026 20:23:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.318132
- Title: EnterpriseRAG-Bench: A RAG Benchmark for Company Internal Knowledge
- Title(参考訳): EnterpriseRAG-Bench:企業内部知識のためのRAGベンチマーク
- Authors: Yuhong Sun, Joachim Rahmfeld, Chris Weaver, Roshan Desai, Wenxi Huang, Mark H. Butler,
- Abstract要約: 約50,000のドキュメントを9つのエンタープライズソースタイプに分散したデータセットであるEnterpriseRAG-Benchを提示する。
コーパスは、クロスドキュメントコヒーレンス(共有プロジェクト、人々、イニシアチブで構築されている)で生成され、現実的なノイズで拡張されます。
生成フレームワークにより、チームは、自身の業界、スケール、ソースミックスに合わせて、変種を生成することができる。
- 参考スコア(独自算出の注目度): 1.0906142150583376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) has become the standard approach for grounding large language models in information that was not available during training. While existing datasets and benchmarks focus on web or other public sources, there is still no widely adopted dataset that realistically reflects the nature of company-internal knowledge. Meanwhile, startups, enterprises, and researchers are increasingly developing AI Agents designed to operate over exactly this kind of proprietary data. To close this gap, we release a synthetic enterprise corpus, its generation framework, and a leaderboard. We present EnterpriseRAG-Bench, a dataset consisting of approximately 500,000 documents spanning nine enterprise source types (Slack, Gmail, Linear, Google Drive, HubSpot, Fireflies, GitHub, Jira, and Confluence) and 500 questions across ten categories that test distinct retrieval and reasoning capabilities. The corpus is generated with cross-document coherence (grounded in shared projects, people, and initiatives) and augmented with realistic noise such as misfiled documents, near-duplicates, and conflicting information. The question set ranges from simple single-document lookups to multi-document reasoning, constrained retrieval, conflict resolution, and recognizing when information is absent. The generation framework lets teams generate variants tailored to their own industry, scale, and source mix. The dataset, code, evaluation harness, and leaderboard are available at https://github.com/onyx-dot-app/EnterpriseRAG-Bench.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、訓練中に利用できなかった情報において、大規模言語モデルを基盤とする標準的なアプローチとなっている。
既存のデータセットとベンチマークはWebや他の公開ソースに焦点を当てているが、企業内部の知識の性質を現実的に反映するデータセットは、まだ広く採用されていない。
一方、スタートアップ、企業、研究者は、まさにこの種のプロプライエタリなデータを操作するために設計されたAIエージェントをますます開発している。
このギャップを埋めるために、私たちは、合成エンタープライズコーパス、生成フレームワーク、およびリーダーボードをリリースします。
EnterpriseRAG-Benchは、9つのエンタープライズソースタイプ(Slack、Gmail、Linear、Google Drive、HubSpot、Fireflies、GitHub、Jira、Confluence)にまたがるおよそ50万のドキュメントからなるデータセットで、検索と推論の能力をテストする10のカテゴリにまたがって500の質問を行います。
コーパスは、クロスドキュメントコヒーレンス(共有プロジェクト、人々、イニシアチブ)で生成され、不正な文書、ほぼ重複する文書、矛盾する情報などの現実的なノイズで拡張される。
質問セットは、単純な単一ドキュメントのルックアップから、複数ドキュメントの推論、制約付き検索、競合解決、情報の欠如の認識まで様々である。
生成フレームワークにより、チームは、自身の業界、スケール、ソースミックスに合わせて、変種を生成することができる。
データセット、コード、評価ハーネス、およびリーダーボードはhttps://github.com/onyx-dot-app/EnterpriseRAG-Bench.comから入手できる。
関連論文リスト
- DRBench: A Realistic Benchmark for Enterprise Deep Research [81.49694432639406]
DRBenchは、エンタープライズ環境で複雑でオープンなディープリサーチタスクでAIエージェントを評価するためのベンチマークである。
セールス、サイバーセキュリティ、コンプライアンスなど10のドメインにわたる15のディープリサーチタスクをリリースしています。
論文 参考訳(メタデータ) (2025-09-30T18:47:20Z) - Are We on the Right Way for Assessing Document Retrieval-Augmented Generation? [16.717935491483146]
Double-Benchは、大規模、多言語、マルチモーダル評価システムである。
ドキュメントRAGシステム内の各コンポーネントに対してきめ細かい評価を行う。
3,276のドキュメント(72,880ページ)と6言語で5,168のシングルホップクエリで構成されている。
論文 参考訳(メタデータ) (2025-08-05T16:55:02Z) - GitBugs: Bug Reports for Duplicate Detection, Retrieval Augmented Generation, and More [0.0]
GitBugsは、9つのアクティブにメンテナンスされているオープンソースプロジェクトからの15万以上のバグレポートからなる、包括的で最新のデータセットである。
GitBugsはGithub、Bugzilla、Jiraのイシュートラッカからのデータを集約し、分類タスクの標準化されたカテゴリフィールドを提供する。
探索分析ノートや、重複率や分解時間などの詳細なプロジェクトレベルの統計情報が含まれている。
論文 参考訳(メタデータ) (2025-04-13T16:55:28Z) - Developing Retrieval Augmented Generation (RAG) based LLM Systems from PDFs: An Experience Report [3.4632900249241874]
本稿では,PDF文書を主データ源とする検索拡張生成システム(RAG)の開発経験報告について述べる。
RAGアーキテクチャは、Large Language Models (LLM) の生成能力と情報検索の精度を組み合わせたものである。
この研究の実際的な意味は、様々な分野における生成AIシステムの信頼性を高めることである。
論文 参考訳(メタデータ) (2024-10-21T12:21:49Z) - Multi-Source Knowledge Pruning for Retrieval-Augmented Generation: A Benchmark and Empirical Study [45.69867169347836]
Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)の幻覚を、外部知識の統合によって緩和するための効果的なアプローチである。
本稿では,多様な領域にまたがる構造化知識と非構造化知識を組み合わせたベンチマークデータセットを標準化する。
また,マルチグラニュラリティプルーニング戦略を主特徴とする,プラグアンドプレイのRAGフレームワークである textbfPruningRAG も開発している。
論文 参考訳(メタデータ) (2024-09-03T03:31:37Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。