論文の概要: AgentSearchBench: A Benchmark for AI Agent Search in the Wild
- arxiv url: http://arxiv.org/abs/2604.22436v1
- Date: Fri, 24 Apr 2026 10:53:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.430799
- Title: AgentSearchBench: A Benchmark for AI Agent Search in the Wild
- Title(参考訳): AgentSearchBench: 野生のAIエージェント検索のためのベンチマーク
- Authors: Bin Wu, Arastun Mammadli, Xiaoyu Zhang, Emine Yilmaz,
- Abstract要約: 本稿では,エージェント検索のための大規模ベンチマークであるAgentSearchBenchを紹介する。
このベンチマークは、エージェント検索を検索として形式化し、実行可能タスククエリと高レベルタスク記述の両方で問題を再分類する。
実行認識型探索を含む軽量な行動信号は、ランキング品質を大幅に向上させることができることを示す。
- 参考スコア(独自算出の注目度): 21.739444037726418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of AI agent ecosystems is transforming how complex tasks are delegated and executed, creating a new challenge of identifying suitable agents for a given task. Unlike traditional tools, agent capabilities are often compositional and execution-dependent, making them difficult to assess from textual descriptions alone. However, existing research and benchmarks typically assume well-specified functionalities, controlled candidate pools, or only executable task queries, leaving realistic agent search scenarios insufficiently studied. We introduce AgentSearchBench, a large-scale benchmark for agent search in the wild, built from nearly 10,000 real-world agents across multiple providers. The benchmark formalizes agent search as retrieval and reranking problems under both executable task queries and high-level task descriptions, and evaluates relevance using execution-grounded performance signals. Experiments reveal a consistent gap between semantic similarity and actual agent performance, exposing the limitations of description-based retrieval and reranking methods. We further show that lightweight behavioral signals, including execution-aware probing, can substantially improve ranking quality, highlighting the importance of incorporating execution signals into agent discovery. Our code is available at https://github.com/Bingo-W/AgentSearchBench.
- Abstract(参考訳): AIエージェントエコシステムの急速な成長は、複雑なタスクの委譲と実行を変革し、与えられたタスクに適したエージェントを特定するという新たな課題を生み出している。
従来のツールとは異なり、エージェント機能はしばしば構成と実行に依存しており、テキスト記述だけでは評価が難しい。
しかし、既存の研究とベンチマークでは、よく特定された機能、制御された候補プール、または実行可能なタスククエリのみを前提としており、現実的なエージェント検索シナリオは十分に研究されていない。
我々は、エージェント検索のための大規模ベンチマークであるAgentSearchBenchを紹介した。
このベンチマークは,実行可能タスククエリと高レベルタスク記述の両方の下で,エージェント検索を検索および再ランク問題として定式化し,実行時の性能信号を用いて関連性を評価する。
実験では、意味的類似性と実際のエージェント性能の間に一貫したギャップが示され、記述に基づく検索と再分類の限界が露呈する。
さらに、実行認識探索を含む軽量な行動信号は、エージェント発見に実行信号を統合することの重要性を強調し、ランキング品質を大幅に向上させることができることを示す。
私たちのコードはhttps://github.com/Bingo-W/AgentSearchBench.comで公開されています。
関連論文リスト
- Agent Mentor: Framing Agent Knowledge through Semantic Trajectory Analysis [4.365760422569902]
我々は、Agent Mentorオープンソースライブラリの一部として実装された分析パイプラインを紹介する。
システムの監視と漸進的な適応によって、他のエージェントの振る舞いを定義する。
パイプラインは、エージェントの知識に修正命令を体系的に注入することで、パフォーマンスを向上させる。
論文 参考訳(メタデータ) (2026-04-12T08:02:54Z) - Learning to Retrieve from Agent Trajectories [72.8923565916533]
我々はエージェント間相互作用データから直接エージェント探索のための検索モデルを訓練すべきであると主張している。
エージェント・トラジェクトリからの学習を新たな訓練パラダイムとして導入し,マルチステップエージェントのインタラクションから指導を導出する。
本研究は,エージェント探索時代における検索の方向性を示すとともに,エージェントトラジェクトリを実用的でスケーラブルな監視源として強調するものである。
論文 参考訳(メタデータ) (2026-03-30T17:59:02Z) - Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents [4.301199871195023]
大規模言語モデル(LLM)エージェントは、ソフトウェア工学のようなオープンなドメインにますますデプロイされています。
我々は, SWE-bench Verified の未特定変種に対する LLM エージェントの解明と探索能力を評価する。
コード実行から不特定性検出を明示的に分離する不確実性認識型マルチエージェントスキャフォールドを提案する。
論文 参考訳(メタデータ) (2026-03-27T09:56:26Z) - AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。
エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。
本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文 参考訳(メタデータ) (2026-01-28T13:49:18Z) - Beyond Monolithic Architectures: A Multi-Agent Search and Knowledge Optimization Framework for Agentic Search [56.78490647843876]
エージェント検索は、大規模言語モデル(LLM)が推論とツールの使用をインターリーブできるようにすることによって、複雑な情報を探すための有望なパラダイムとして登場した。
本稿では,bfM-ASKを提案する。bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK。
論文 参考訳(メタデータ) (2026-01-08T08:13:27Z) - AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering [51.07491603393163]
tAgentは知識グラフ誘導ルーティング問題としてマルチエージェントQAを定式化するフレームワークである。
エージェントアウトプットのソフトな監督と重み付けされた集約を活用することで、エージェントは多様なエージェントの相補的な強みを捉える、原則化された協調スキームを学ぶ。
論文 参考訳(メタデータ) (2025-10-06T23:20:49Z) - AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。
既存のエージェントサーチ手法には3つの大きな制限がある。
これらの課題に対処するための包括的なフレームワークを導入します。
論文 参考訳(メタデータ) (2025-06-06T12:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。