論文の概要: InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2505.15872v1
- Date: Wed, 21 May 2025 14:44:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.831455
- Title: InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation
- Title(参考訳): InfoDeepSeek:Retrieval-Augmented Generationのためのエージェント情報検索ベンチマーク
- Authors: Yunjia Xi, Jianghao Lin, Menghui Zhu, Yongzhao Xiao, Zhuoying Ou, Jiaqi Liu, Tong Wan, Bo Chen, Weiwen Liu, Yasheng Wang, Ruiming Tang, Weinan Zhang, Yong Yu,
- Abstract要約: InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
- 参考スコア(独自算出の注目度): 63.55258191625131
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) enhances large language models (LLMs) by grounding responses with retrieved information. As an emerging paradigm, Agentic RAG further enhances this process by introducing autonomous LLM agents into the information seeking process. However, existing benchmarks fall short in evaluating such systems, as they are confined to a static retrieval environment with a fixed, limited corpus} and simple queries that fail to elicit agentic behavior. Moreover, their evaluation protocols assess information seeking effectiveness by pre-defined gold sets of documents, making them unsuitable for the open-ended and dynamic nature of real-world web environments. To bridge this gap, we present InfoDeepSeek, a new benchmark with challenging questions designed for assessing agentic information seeking in real-world, dynamic web environments. We propose a systematic methodology for constructing challenging queries satisfying the criteria of determinacy, difficulty, and diversity. Based on this, we develop the first evaluation framework tailored to dynamic agentic information seeking, including fine-grained metrics about the accuracy, utility, and compactness of information seeking outcomes. Through extensive experiments across LLMs, search engines, and question types, InfoDeepSeek reveals nuanced agent behaviors and offers actionable insights for future research.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、検索された情報で応答をグラウンドすることで、大きな言語モデル(LLM)を強化する。
エージェントRAGは新たなパラダイムとして、情報探索プロセスに自律的LLMエージェントを導入することにより、このプロセスをさらに強化する。
しかし、既存のベンチマークは静的検索環境に限られており、固定されたコーパスと単純なクエリでエージェントの振る舞いを導き出せないため、そのようなシステムを評価するには不十分である。
さらに、それらの評価プロトコルは、事前定義された金の集合によって有効性を求める情報を評価し、現実世界のウェブ環境のオープンエンドおよびダイナミックな性質には適さない。
このギャップを埋めるために、我々はInfoDeepSeekという新しいベンチマークを紹介します。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
そこで我々は,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発した。
LLM、検索エンジン、質問タイプにわたる広範な実験を通じてInfoDeepSeekは、複雑なエージェントの振る舞いを明らかにし、将来の研究に実用的な洞察を提供する。
関連論文リスト
- Scent of Knowledge: Optimizing Search-Enhanced Reasoning with Information Foraging [7.047640531842663]
InForageは、動的情報探索プロセスとして検索強化推論を形式化する強化学習フレームワークである。
我々は,複雑な実世界のWebタスクに対する反復探索と推論のトラジェクトリをキャプチャするヒューマンガイドデータセットを構築した。
これらの結果は、堅牢で適応的で効率的な推論エージェントの構築におけるInForageの有効性を強調している。
論文 参考訳(メタデータ) (2025-05-14T12:13:38Z) - Agentic Information Retrieval [21.731477708105515]
本稿では,大規模言語モデル(LLM)とAIエージェントによって駆動されるIRの変換的次世代パラダイムであるエージェント情報検索(Agentic IR)を紹介する。
エージェントIRにおける中心的なシフトは、静的で事前定義された情報項目から動的で文脈に依存した情報状態への「情報の定義」の進化である。
論文 参考訳(メタデータ) (2024-10-13T03:45:24Z) - DeepNote: Note-Centric Deep Retrieval-Augmented Generation [72.70046559930555]
Retrieval-Augmented Generation (RAG)は質問応答のための大規模言語モデル(LLM)における事実誤りと幻覚を緩和する
我々は、ノート中心の適応検索により、知識ソースの奥深くで堅牢な探索を実現する適応RAGフレームワークであるDeepNoteを開発した。
論文 参考訳(メタデータ) (2024-10-11T14:03:29Z) - WeKnow-RAG: An Adaptive Approach for Retrieval-Augmented Generation Integrating Web Search and Knowledge Graphs [10.380692079063467]
本稿では,Web検索と知識グラフを統合したWeKnow-RAGを提案する。
まず,知識グラフの構造化表現と高次ベクトル検索の柔軟性を組み合わせることで,LLM応答の精度と信頼性を向上させる。
提案手法は,情報検索の効率と精度を効果的にバランスさせ,全体の検索プロセスを改善する。
論文 参考訳(メタデータ) (2024-08-14T15:19:16Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。