論文の概要: InfoMosaic-Bench: Evaluating Multi-Source Information Seeking in Tool-Augmented Agents
- arxiv url: http://arxiv.org/abs/2510.02271v1
- Date: Thu, 02 Oct 2025 17:48:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.267436
- Title: InfoMosaic-Bench: Evaluating Multi-Source Information Seeking in Tool-Augmented Agents
- Title(参考訳): InfoMosaic-Bench: ツール強化エージェントにおけるマルチソース情報検索の評価
- Authors: Yaxin Du, Yuanshuo Zhang, Xiyuan Yang, Yifan Zhou, Cheng Wang, Gongyi Zou, Xianghe Pang, Wenhao Wang, Menglan Chen, Shuo Tang, Zhiyu Li, Siheng Chen,
- Abstract要約: InfoMosaic-Benchは、ツール拡張されたエージェントを探すマルチソース情報に特化した最初のベンチマークである。
汎用検索とドメイン固有のツールを組み合わせるにはエージェントが必要である。
この設計は信頼性と非自明性の両方を保証する。
- 参考スコア(独自算出の注目度): 54.42755166292046
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Information seeking is a fundamental requirement for humans. However, existing LLM agents rely heavily on open-web search, which exposes two fundamental weaknesses: online content is noisy and unreliable, and many real-world tasks require precise, domain-specific knowledge unavailable from the web. The emergence of the Model Context Protocol (MCP) now allows agents to interface with thousands of specialized tools, seemingly resolving this limitation. Yet it remains unclear whether agents can effectively leverage such tools -- and more importantly, whether they can integrate them with general-purpose search to solve complex tasks. Therefore, we introduce InfoMosaic-Bench, the first benchmark dedicated to multi-source information seeking in tool-augmented agents. Covering six representative domains (medicine, finance, maps, video, web, and multi-domain integration), InfoMosaic-Bench requires agents to combine general-purpose search with domain-specific tools. Tasks are synthesized with InfoMosaic-Flow, a scalable pipeline that grounds task conditions in verified tool outputs, enforces cross-source dependencies, and filters out shortcut cases solvable by trivial lookup. This design guarantees both reliability and non-triviality. Experiments with 14 state-of-the-art LLM agents reveal three findings: (i) web information alone is insufficient, with GPT-5 achieving only 38.2% accuracy and 67.5% pass rate; (ii) domain tools provide selective but inconsistent benefits, improving some domains while degrading others; and (iii) 22.4% of failures arise from incorrect tool usage or selection, highlighting that current LLMs still struggle with even basic tool handling.
- Abstract(参考訳): 情報検索は人間にとって基本的な要件である。
しかし、既存のLLMエージェントはオープンウェブ検索に大きく依存しており、これは2つの根本的な弱点を露呈している。
Model Context Protocol(MCP)の出現により、エージェントは数千の専門ツールとインターフェースできるようになり、どうやらこの制限を解消しているようだ。
しかし、エージェントがそのようなツールを効果的に活用できるかどうかは不明だ。
そこで我々は,ツール拡張エージェントを用いたマルチソース情報検索のための最初のベンチマークであるInfoMosaic-Benchを紹介する。
6つの代表的なドメイン(医療、金融、地図、ビデオ、ウェブ、マルチドメインの統合)をカバーするInfoMosaic-Benchは、汎用検索とドメイン固有のツールを組み合わせるためにエージェントを必要とする。
タスクはInfoMosaic-Flowで合成される。このスケーラブルなパイプラインは、検証済みのツール出力にタスク条件を基盤として、ソース間の依存関係を強制し、簡単なルックアップで解決可能なショートカットケースをフィルタリングする。
この設計は信頼性と非自明性の両方を保証する。
最先端のLLM剤14種を用いた実験で、以下の3つの結果が判明した。
(i)ウェブ情報だけでは不十分であり、GPT-5は38.2%の精度と67.5%のパスレートしか達成していない。
(II)ドメインツールは、選択的だが一貫性のない利点を提供し、いくつかのドメインを改善しながら、他のドメインを劣化させる。
(iii)22.4%の障害は、不正なツールの使用や選択によって発生し、現在のLLMは、基本的なツール処理にも苦戦している。
関連論文リスト
- InfoAgent: Advancing Autonomous Information-Seeking Agents [143.15973604285304]
本稿では,革新的なデータ合成パイプラインとWeb検索ツールを駆使したディープリサーチエージェントInfoAgentを紹介する。
我々の方法では、InfoAgentはBrowseCompで15.3%、BrowseComp-ZHで29.2%、Xbench-DSで40.4%の精度を達成した。
論文 参考訳(メタデータ) (2025-09-29T17:59:57Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - GTA: A Benchmark for General Tool Agents [32.443456248222695]
229個の実世界のタスクと実行可能なツールチェーンを設計し、主要な大言語モデル(LLM)を評価する。
GPT-4 はタスクの 50% 以下であり,ほとんどの LLM は 25% 以下である。
この評価は、現実シナリオにおける現在のLLMのツール利用能力のボトルネックを明らかにし、汎用ツールエージェントを前進させるための今後の方向性を提供する。
論文 参考訳(メタデータ) (2024-07-11T17:50:09Z) - Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub [79.31134731122462]
オープンドメインのタスク解決能力を評価するためにOpenActベンチマークを導入します。
我々は,オープンドメインの進化するクエリに,GitHubから専門ツールを自律的に統合することで対処できる,新しいLLMベースのエージェントシステムであるOpenAgentを紹介する。
論文 参考訳(メタデータ) (2023-12-28T15:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。