論文の概要: LocalSearchBench: Benchmarking Agentic Search in Real-World Local Life Services
- arxiv url: http://arxiv.org/abs/2512.07436v1
- Date: Mon, 08 Dec 2025 11:12:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.854942
- Title: LocalSearchBench: Benchmarking Agentic Search in Real-World Local Life Services
- Title(参考訳): LocalSearchBench: 実世界のローカルライフサービスにおけるエージェント検索のベンチマーク
- Authors: Hang He, Chuhuai Yue, Chengqi Dong, Mingxue Tian, Zhenfeng Liu, Jiajun Chai, Xiaohan Wang, Yufei Zhang, Qun Liao, Guojun Yin, Wei Lin, Chengcheng Wan, Haiying Sun, Ting Su,
- Abstract要約: LocalSearchBenchは、ローカルライフサービスのエージェント検索のための包括的なベンチマークである。
様々な都市やビジネスタイプから15万以上の高品質なエントリーが含まれている。
実験によると、最先端のLEMでさえLocalSearchBenchに苦戦している。
- 参考スコア(独自算出の注目度): 36.8757348940694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large reasoning models (LRMs) have enabled agentic search systems to perform complex multi-step reasoning across multiple sources. However, most studies focus on general information retrieval and rarely explores vertical domains with unique challenges. In this work, we focus on local life services and introduce LocalSearchBench, which encompass diverse and complex business scenarios. Real-world queries in this domain are often ambiguous and require multi-hop reasoning across merchants and products, remaining challenging and not fully addressed. As the first comprehensive benchmark for agentic search in local life services, LocalSearchBench includes over 150,000 high-quality entries from various cities and business types. We construct 300 multi-hop QA tasks based on real user queries, challenging agents to understand questions and retrieve information in multiple steps. We also developed LocalPlayground, a unified environment integrating multiple tools for agent interaction. Experiments show that even state-of-the-art LRMs struggle on LocalSearchBench: the best model (DeepSeek-V3.1) achieves only 34.34% correctness, and most models have issues with completeness (average 77.33%) and faithfulness (average 61.99%). This highlights the need for specialized benchmarks and domain-specific agent training in local life services. Code, Benchmark, and Leaderboard are available at localsearchbench.github.io.
- Abstract(参考訳): 大規模推論モデル(LRM)の最近の進歩により、エージェント検索システムは複数のソースにまたがる複雑な多段階推論を実行できるようになった。
しかし、ほとんどの研究は一般情報検索に重点を置いており、独特な課題を伴う垂直領域の探索はめったにない。
本研究では,多様な複雑なビジネスシナリオを網羅したローカルSearchBenchを紹介する。
この領域の現実世界のクエリは曖昧で、商店や製品間でのマルチホップ推論を必要とします。
ローカルライフサービスのエージェント検索に関する最初の総合ベンチマークとして、LocalSearchBenchには、さまざまな都市やビジネスタイプから15万以上の高品質なエントリが含まれている。
我々は、実際のユーザクエリに基づいて300のマルチホップQAタスクを構築し、質問を理解し、複数のステップで情報を取得するためにエージェントに挑戦する。
エージェントインタラクションのための複数のツールを統合する統合環境であるLocalPlaygroundも開発した。
実験の結果、最も優れたモデル(DeepSeek-V3.1)は34.34%の正しさしか達成せず、ほとんどのモデルは完全性(平均77.33%)と忠実性(平均61.99%)の問題を抱えている。
これは、ローカルなライフサービスにおいて、特別なベンチマークとドメイン固有のエージェントトレーニングの必要性を強調します。
Code, Benchmark, Leaderboardはlocalsearchbench.github.ioで公開されている。
関連論文リスト
- DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search [61.77858432092777]
DeepMMSearch-R1は,オンデマンドでマルチターンWeb検索が可能な,最初のマルチモーダルな大規模言語モデルである。
DeepMMSearch-R1は、画像検索をより効果的にするために、入力画像の関連する作物に基づいてWeb検索を開始することができる。
我々は、アプローチの優位性を実証するために、知識集約型ベンチマークを幅広く実施する。
論文 参考訳(メタデータ) (2025-10-14T17:59:58Z) - InfoMosaic-Bench: Evaluating Multi-Source Information Seeking in Tool-Augmented Agents [60.89180545430896]
InfoMosaic-Benchは、ツール拡張されたエージェントを探すマルチソース情報に特化した最初のベンチマークである。
汎用検索とドメイン固有のツールを組み合わせるにはエージェントが必要である。
この設計は信頼性と非自明性の両方を保証する。
論文 参考訳(メタデータ) (2025-10-02T17:48:03Z) - MMSearch-Plus: Benchmarking Provenance-Aware Search for Multimodal Browsing Agents [44.63565009665076]
マルチモーダル理解を強制する311タスクのベンチマークであるMMSearch-Plusを紹介する。
標準ブラウジングツールとset-of-mark(SoM)モジュールを備えたモデルに依存しないエージェントフレームワークを提供する。
SoMは、プロファイナンス対応のズーム・アンド・リトリーブを可能にし、マルチステップ推論におけるロバスト性を改善する。
論文 参考訳(メタデータ) (2025-08-29T09:58:27Z) - HierSearch: A Hierarchical Enterprise Deep Search Framework Integrating Local and Web Searches [54.65565885083031]
本稿では,階層型RLで学習した階層型エージェントディープ検索フレームワークであるHierSearchを提案する。
低レベルにおいては、ローカルなディープサーチエージェントとWebのディープサーチエージェントがトレーニングされ、対応するドメインから証拠を検索する。
高レベルでは、プランナーエージェントが低レベルのエージェントをコーディネートし、最終回答を提供する。
論文 参考訳(メタデータ) (2025-08-11T15:31:47Z) - WideSearch: Benchmarking Agentic Broad Info-Seeking [26.110175228335894]
大規模コレクションタスクにおいてエージェントの信頼性を評価するために設計された新しいベンチマークであるWideSearchを紹介する。
ベンチマークでは、実際のユーザクエリに基づいて、15以上のさまざまなドメインから200の質問を手作業でキュレートする。
我々は、シングルエージェント、マルチエージェントフレームワーク、エンドツーエンドの商用システムを含む、10以上の最先端のエージェント検索システムをベンチマークする。
論文 参考訳(メタデータ) (2025-08-11T14:03:09Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。