論文の概要: Evaluating the Search Agent in a Parallel World
- arxiv url: http://arxiv.org/abs/2603.04751v1
- Date: Thu, 05 Mar 2026 02:56:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.045933
- Title: Evaluating the Search Agent in a Parallel World
- Title(参考訳): 並列世界における探索エージェントの評価
- Authors: Jiawei Chen, Xintian Shen, Lihao Zheng, Lifu Mu, Haoyi Sun, Ning Mao, Hao Ma, Tao Wei, Pan Zhou, Kun Zhan,
- Abstract要約: 並列世界における検索エージェント評価フレームワークであるMind-ParaWorldを紹介する。
パラワールド・ロー・モデル(ParaWorld Law Model)は、不可分なアトミック・ファクトの集合と、各質問に対する独特な基礎構造を構築する。
評価中、現実世界の結果を取得する代わりに、エージェントはパラワールドモデルと対話する。
MPW-Benchは19のドメインと1,608のインスタンスにまたがる対話型ベンチマークです。
- 参考スコア(独自算出の注目度): 28.24678964635285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating web search tools has significantly extended the capability of LLMs to address open-world, real-time, and long-tail problems. However, evaluating these Search Agents presents formidable challenges. First, constructing high-quality deep search benchmarks is prohibitively expensive, while unverified synthetic data often suffers from unreliable sources. Second, static benchmarks face dynamic obsolescence: as internet information evolves, complex queries requiring deep research often degrade into simple retrieval tasks due to increased popularity, and ground truths become outdated due to temporal shifts. Third, attribution ambiguity confounds evaluation, as an agent's performance is often dominated by its parametric memory rather than its actual search and reasoning capabilities. Finally, reliance on specific commercial search engines introduces variability that hampers reproducibility. To address these issues, we propose a novel framework, Mind-ParaWorld, for evaluating Search Agents in a Parallel World. Specifically, MPW samples real-world entity names to synthesize future scenarios and questions situated beyond the model's knowledge cutoff. A ParaWorld Law Model then constructs a set of indivisible Atomic Facts and a unique ground-truth for each question. During evaluation, instead of retrieving real-world results, the agent interacts with a ParaWorld Engine Model that dynamically generates SERPs grounded in these inviolable Atomic Facts. We release MPW-Bench, an interactive benchmark spanning 19 domains with 1,608 instances. Experiments across three evaluation settings show that, while search agents are strong at evidence synthesis given complete information, their performance is limited not only by evidence collection and coverage in unfamiliar search environments, but also by unreliable evidence sufficiency judgment and when-to-stop decisions-bottlenecks.
- Abstract(参考訳): Web検索ツールの統合は、オープンワールド、リアルタイム、ロングテールの問題に対処するLLMの機能を大幅に拡張した。
しかし、これらの検索エージェントを評価することは、非常に困難な課題である。
まず、高品質なディープ・サーチ・ベンチマークを構築するのは非常に高価であるが、検証されていない合成データは信頼性の低い情報源に悩まされることが多い。
第二に、静的なベンチマークは動的不明瞭さに直面している:インターネット情報が進化するにつれて、深い研究を必要とする複雑なクエリは、人気が増すにつれて単純な検索タスクに分解され、時相的な変化によって地底の真実は時代遅れになる。
第3に、エージェントのパフォーマンスは実際の探索と推論能力よりも、そのパラメトリックメモリに支配されているため、属性の曖昧さが評価を裏付ける。
最後に、特定の商用検索エンジンへの依存は、再現性を損なう変動をもたらす。
これらの課題に対処するために,並列世界における検索エージェントの評価のための新しいフレームワークであるMind-ParaWorldを提案する。
具体的には、MPWは現実世界のエンティティ名をサンプリングし、将来のシナリオとモデルの知識の遮断を超えた質問を合成する。
パラワールド・ロー・モデル(ParaWorld Law Model)は、各質問に対して、不可分なアトミック・ファクトと独特な基礎構造を構築する。
評価中、実世界の結果を取得する代わりに、エージェントはパラワールドエンジンモデルと相互作用し、これらの非暴力性原子Factsに接するSERPを動的に生成する。
MPW-Benchは19のドメインと1,608のインスタンスにまたがる対話型ベンチマークです。
3つの評価環境における実験により,検索エージェントは完全情報に対するエビデンス合成に強いが,その性能は不慣れなサーチ環境におけるエビデンス収集やカバレッジだけでなく,信頼性の低いエビデンス判断や,いつ立ち止まるかの判定によって制限されていることがわかった。
関連論文リスト
- GISA: A Benchmark for General Information-Seeking Assistant [102.30831921333755]
GISAは汎用情報検索アシスタントのベンチマークであり、373の人為的なクエリで構成されている。
深い推論と広範囲な情報集約を統合タスクに統合し、暗記に抵抗するために定期的に更新された回答を含むライブサブセットを含む。
主要なLCMと商用検索製品の実験では、最高のパフォーマンスモデルでさえ19.30%の正確なマッチスコアしか達成していないことが示されている。
論文 参考訳(メタデータ) (2026-02-09T11:44:15Z) - LiveSearchBench: An Automatically Constructed Benchmark for Retrieval and Reasoning over Dynamic Knowledge [31.40589987269264]
近年の知識更新から検索依存ベンチマークを構築するためのパイプラインであるLiveSearchBenchを紹介する。
提案手法は, 連続するウィキデータスナップショット間のデルタを計算し, 品質の3倍をフィルタし, 3段階の推論困難度で自然言語質問を合成する。
実験では、モデルが過去の事前トレーニングの事実に直面すると、パフォーマンスの低下が顕著になる。
論文 参考訳(メタデータ) (2025-11-03T10:00:49Z) - MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval [86.35779264575154]
マルチモーダル検索は、現代のAIアプリケーションにおいて重要なコンポーネントになりつつあるが、その評価は、より現実的で困難なシナリオの要求に遅れている。
マルチモーダル検索のための推論集約型ベンチマークであるMR$2$-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-30T15:09:14Z) - KnowMT-Bench: Benchmarking Knowledge-Intensive Long-Form Question Answering in Multi-Turn Dialogues [58.305425399644086]
MT-LFQA(Multi-Turn Long-Form Question Answering)は、知識集約ドメインにおけるLLM(Large Language Models)の重要な応用パラダイムである。
textbfKnowMT-Benchは、知識集約的な分野にわたるLLMのためのMT-LFQAを体系的に評価するために設計された、テキストファーストなベンチマークである。
論文 参考訳(メタデータ) (2025-09-26T04:32:29Z) - RAVine: Reality-Aligned Evaluation for Agentic Search [7.4420114967110385]
RAVineは、検索を伴うエージェントLLMのための現実対応eValuationフレームワークである。
RAVineは、マルチポイントクエリと、ユーザの意図を反映した長文の回答をターゲットにしている。
RAVineを使って一連のモデルをベンチマークし、いくつかの洞察を得た。
論文 参考訳(メタデータ) (2025-07-22T16:08:12Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z) - InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。