論文の概要: AgentSelect: Benchmark for Narrative Query-to-Agent Recommendation
- arxiv url: http://arxiv.org/abs/2603.03761v1
- Date: Wed, 04 Mar 2026 06:17:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.197573
- Title: AgentSelect: Benchmark for Narrative Query-to-Agent Recommendation
- Title(参考訳): AgentSelect: Narrative Query-to-Agent Recommendationのベンチマーク
- Authors: Yunxiao Shi, Wujiang Xu, Tingwei Chen, Haoning Shang, Ling Yang, Yunfeng Wan, Zhuo Cao, Xing Zi, Dimitris N. Metaxas, Min Xu,
- Abstract要約: AgentSelectは、エージェントの選択をナラティブクエリからエージェントへのレコメンデーションとして再設計するベンチマークである。
異種評価アーティファクトを、統一された正のみの相互作用データに変換する。
AgentSelectは、エージェントレコメンデーションのための最初の統一データと評価インフラストラクチャを提供する。
- 参考スコア(独自算出の注目度): 39.61543921719145
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: LLM agents are rapidly becoming the practical interface for task automation, yet the ecosystem lacks a principled way to choose among an exploding space of deployable configurations. Existing LLM leaderboards and tool/agent benchmarks evaluate components in isolation and remain fragmented across tasks, metrics, and candidate pools, leaving a critical research gap: there is little query-conditioned supervision for learning to recommend end-to-end agent configurations that couple a backbone model with a toolkit. We address this gap with AgentSelect, a benchmark that reframes agent selection as narrative query-to-agent recommendation over capability profiles and systematically converts heterogeneous evaluation artifacts into unified, positive-only interaction data. AgentSelectcomprises 111,179 queries, 107,721 deployable agents, and 251,103 interaction records aggregated from 40+ sources, spanning LLM-only, toolkit-only, and compositional agents. Our analyses reveal a regime shift from dense head reuse to long-tail, near one-off supervision, where popularity-based CF/GNN methods become fragile and content-aware capability matching is essential. We further show that Part~III synthesized compositional interactions are learnable, induce capability-sensitive behavior under controlled counterfactual edits, and improve coverage over realistic compositions; models trained on AgentSelect also transfer to a public agent marketplace (MuleRun), yielding consistent gains on an unseen catalog. Overall, AgentSelect provides the first unified data and evaluation infrastructure for agent recommendation, which establishes a reproducible foundation to study and accelerate the emerging agent ecosystem.
- Abstract(参考訳): LLMエージェントは、タスク自動化の実用的なインターフェースとして急速になってきているが、デプロイ可能なコンフィギュレーションの爆発的なスペースを選択するための、原則的な方法が欠如している。
既存のLCMのリーダボードとツール/エージェントベンチマークは、独立したコンポーネントを評価し、タスク、メトリクス、候補プールにまたがって断片化され、重要な研究ギャップを残している。
我々は,エージェント選択を機能プロファイルよりも物語的クエリ・ツー・エージェントのレコメンデーションとして再構成し,異種評価成果物を統一されたポジティブなインタラクションデータに体系的に変換するベンチマークであるAgentSelectとこのギャップに対処する。
AgentSelectcomは、111,179のクエリ、107,721のデプロイ可能なエージェントと、40以上のソースから集約された251,103のインタラクションレコードで構成されている。
そこでは, CF/GNN法が脆弱になり, コンテンツ認識能力のマッチングが不可欠である。
さらに、パート~IIIの合成合成合成相互作用は学習可能であり、制御された反ファクト編集下での能力に敏感な振る舞いを誘導し、現実的な構成のカバレッジを向上させることを示し、エージェントセレクトで訓練されたモデルも公開エージェントマーケットプレース(MuleRun)に移行し、目に見えないカタログ上で一貫した利得を得る。
全体として、AgentSelectはエージェントレコメンデーションのための最初の統一データと評価基盤を提供する。
関連論文リスト
- Learning to Recommend Multi-Agent Subgraphs from Calling Trees [6.247621896325622]
マルチエージェントシステム(MAS)は、急速に成長する市場から選択されたエージェントやツールを編成することで、複雑なタスクをますます解決する。
提案手法では,まず検索を用いて,現在のサブタスクとコンテキストを条件としたコンパクトな候補セットを構築する。
我々は,MASの実行構造を捉えたテキスト履歴呼び出し木に,定式化と学習信号の両方を接地する。
論文 参考訳(メタデータ) (2026-01-29T18:26:12Z) - AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering [51.07491603393163]
tAgentは知識グラフ誘導ルーティング問題としてマルチエージェントQAを定式化するフレームワークである。
エージェントアウトプットのソフトな監督と重み付けされた集約を活用することで、エージェントは多様なエージェントの相補的な強みを捉える、原則化された協調スキームを学ぶ。
論文 参考訳(メタデータ) (2025-10-06T23:20:49Z) - Emergent Coordination in Multi-Agent Language Models [2.504366738288215]
マルチエージェントシステムが高次構造の兆候を示すかどうかをテストするための情報理論フレームワークを提案する。
この情報分解により、マルチエージェントLLMシステムに動的に出現するかどうかを測定することができる。
我々は,エージェントの直接通信を使わずに,単純な推測ゲームを用いた実験に本フレームワークを適用した。
論文 参考訳(メタデータ) (2025-10-05T11:26:41Z) - Stochastic Self-Organization in Multi-Agent Systems [28.70691568233268]
LLM(Large Language Models)に基づくマルチエージェントシステム(MAS)は、単一のLLMの範囲を超えているタスクを解く可能性がある。
通信をオンザフライで適応する応答条件付きフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-01T09:08:04Z) - MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。
提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。
その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-13T19:14:48Z) - AgentOrchestra: Orchestrating Hierarchical Multi-Agent Intelligence with the Tool-Environment-Agent(TEA) Protocol [22.406849007798858]
本稿では,環境,エージェント,ツールを統一システムに統合するツール-環境-エージェントプロトコルを提案する。
本稿では,複雑な目的を分解し,特殊エージェントをコーディネートする中央計画エージェントを備えた階層型マルチエージェントフレームワークであるAgensOrchestraを紹介する。
論文 参考訳(メタデータ) (2025-06-14T13:45:37Z) - MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification [5.666070277424383]
MAG-Vは、顧客のクエリを模倣する質問のデータセットを生成するフレームワークである。
我々の合成データは、実際の顧客クエリにおけるエージェントのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-11-28T19:36:11Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - AgentCF: Collaborative Learning with Autonomous Language Agents for
Recommender Systems [112.76941157194544]
本稿では,エージェントベースの協調フィルタリングにより,レコメンデータシステムにおけるユーザとイテムのインタラクションをシミュレートするエージェントCFを提案する。
我々は、ユーザだけでなく、アイテムをエージェントとして、創造的に考慮し、両方のエージェントを同時に最適化する協調学習アプローチを開発します。
全体として、最適化されたエージェントは、ユーザ・イテム、ユーザ・ユーザ・ユーザ、アイテム・イテム、集合的インタラクションなど、フレームワーク内での多様なインタラクションの振る舞いを示す。
論文 参考訳(メタデータ) (2023-10-13T16:37:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。