論文の概要: Benchmarking Deep Search over Heterogeneous Enterprise Data
- arxiv url: http://arxiv.org/abs/2506.23139v1
- Date: Sun, 29 Jun 2025 08:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.738732
- Title: Benchmarking Deep Search over Heterogeneous Enterprise Data
- Title(参考訳): 異種企業データによるディープサーチのベンチマーク
- Authors: Prafulla Kumar Choubey, Xiangyu Peng, Shilpa Bhagavath, Kung-Hsiang Huang, Caiming Xiong, Chien-Sheng Wu,
- Abstract要約: 検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
- 参考スコア(独自算出の注目度): 73.55304268238474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new benchmark for evaluating Deep Search--a realistic and complex form of retrieval-augmented generation (RAG) that requires source-aware, multi-hop reasoning over diverse, sparsed, but related sources. These include documents, meeting transcripts, Slack messages, GitHub, and URLs, which vary in structure and often contain human-to-human interactions. We build it using a synthetic data pipeline that simulates business workflows across product planning, development, and support stages, generating interconnected content with realistic noise and multi-hop questions with guaranteed ground-truth answers. We release our benchmark with both answerable and unanswerable queries, and retrieval pool of 39,190 enterprise artifacts, enabling fine-grained evaluation of long-context LLM and RAG systems. Our experiments reveal that even the best-performing agentic RAG methods achieve an average performance score of 32.96 on our benchmark. With further analysis, we highlight retrieval as the main bottleneck: existing methods struggle to conduct deep searches and retrieve all necessary evidence. Consequently, they often reason over partial context, leading to significant performance degradation.
- Abstract(参考訳): 本稿では,多種多種多様な関連ソースに対して,ソース認識,マルチホップ推論を必要とする検索拡張生成(RAG)の現実的かつ複雑な形式であるDeep Searchを評価するための新しいベンチマークを提案する。
これにはドキュメント、会議用トランスクリプト、Slackメッセージ、GitHub、URLが含まれる。
私たちは、製品計画、開発、サポートステージにわたるビジネスワークフローをシミュレートする合成データパイプラインを使用して構築し、現実的なノイズを伴う相互接続されたコンテンツを生成します。
我々は,回答可能な問合せと解答できない問合せと39,190個のエンタープライズアーティファクトの検索プールでベンチマークを公開し,長文LLMとRAGシステムのきめ細かい評価を可能にした。
実験の結果,最も優れたエージェントRAG手法でさえ,ベンチマークの平均性能スコアが32.96であることが確認された。
既存の手法では,詳細な検索と必要な証拠の検索に苦慮している。
その結果、多くの場合、部分的なコンテキストを考慮し、パフォーマンスが大幅に低下する。
関連論文リスト
- Hierarchical Lexical Graph for Enhanced Multi-Hop Retrieval [22.33550491040999]
RAGは、大きな言語モデルを外部の証拠に基礎を置いているが、セマンティックに遠く離れた文書で答えをまとめなければならないと、いまだに混乱している。
私たちは、StatementGraphRAGとTopicGraphRAGという2つのプラグイン・アンド・プレイレトリバーを構築します。
提案手法は,検索リコールと正当性において平均23.1%の相対的改善を達成し,有意なチャンクベースRAGよりも優れていた。
論文 参考訳(メタデータ) (2025-06-09T17:58:35Z) - RARE: Retrieval-Aware Robustness Evaluation for Retrieval-Augmented Generation Systems [35.47591417637136]
Retrieval-Augmented Generation (RAG)は、回答の正確性と事実性を高める。
既存の評価では、これらのシステムが現実世界のノイズ、内部と外部の取得したコンテキストの衝突、あるいは急速に変化する事実にどのように対処するかを検査することはめったにない。
本稿では,動的で時間に敏感なコーパス上でのストレステストクエリと文書摂動を共同で行う,統一されたフレームワークと大規模ベンチマークであるRetrieval-Aware Robustness Evaluation (RARE)を紹介する。
論文 参考訳(メタデータ) (2025-06-01T02:42:36Z) - SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [89.99161034065614]
Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。
既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。
本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:05:02Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - Enhancing Multi-modal and Multi-hop Question Answering via Structured
Knowledge and Unified Retrieval-Generation [33.56304858796142]
マルチモーダルなマルチホップ質問応答は、異なるモーダルから複数の入力ソースを推論することで質問に答える。
既存の手法は、しばしば別々に証拠を検索し、その後言語モデルを使用して、得られた証拠に基づいて回答を生成する。
本稿では,これらの問題に対処するため,構造化知識と統一検索生成(RG)アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:12:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。