論文の概要: Benchmark Test-Time Scaling of General LLM Agents
- arxiv url: http://arxiv.org/abs/2602.18998v1
- Date: Sun, 22 Feb 2026 01:08:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.436365
- Title: Benchmark Test-Time Scaling of General LLM Agents
- Title(参考訳): 汎用LLMエージェントのベンチマーク試験時間スケーリング
- Authors: Xiaochuan Li, Ryan Ming, Pranav Setlur, Abhijay Paladugu, Andy Tang, Hao Kang, Shuai Shao, Rong Jin, Chenyan Xiong,
- Abstract要約: General AgentBenchは、検索、コーディング、推論、ツール使用ドメインにわたる一般的なLLMエージェントを評価するためのベンチマークである。
ドメイン固有評価から一般エージェント設定に移行する際の性能劣化について検討する。
どちらのスケーリングも2つの基本的な制限のため、実行時の効果的なパフォーマンス改善にはならないことが分かりました。
- 参考スコア(独自算出の注目度): 27.756239376314294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents are increasingly expected to function as general-purpose systems capable of resolving open-ended user requests. While existing benchmarks focus on domain-aware environments for developing specialized agents, evaluating general-purpose agents requires more realistic settings that challenge them to operate across multiple skills and tools within a unified environment. We introduce General AgentBench, a benchmark that provides such a unified framework for evaluating general LLM agents across search, coding, reasoning, and tool-use domains. Using General AgentBench, we systematically study test-time scaling behaviors under sequential scaling (iterative interaction) and parallel scaling (sampling multiple trajectories). Evaluation of ten leading LLM agents reveals a substantial performance degradation when moving from domain-specific evaluations to this general-agent setting. Moreover, we find that neither scaling methodology yields effective performance improvements in practice, due to two fundamental limitations: context ceiling in sequential scaling and verification gap in parallel scaling. Code is publicly available at https://github.com/cxcscmu/General-AgentBench.
- Abstract(参考訳): LLMエージェントは、オープンエンドのユーザリクエストを解決できる汎用システムとして機能することがますます期待されている。
既存のベンチマークでは、特殊なエージェントを開発するためのドメイン認識環境に重点を置いているが、汎用エージェントを評価するには、複数のスキルやツールを統一された環境で運用するには、より現実的な設定が必要である。
General AgentBenchは,汎用LLMエージェントを検索,コーディング,推論,ツール使用領域で評価するための統一的なフレームワークである。
General AgentBenchを用いて、逐次スケーリング(反復的相互作用)と並列スケーリング(複数軌道のサンプリング)の下でのテスト時間スケーリングの挙動を体系的に研究する。
10個のLLMエージェントの評価は、ドメイン固有評価から一般エージェント設定に移行する際に、かなりの性能劣化を示す。
さらに,並列スケーリングにおけるコンテキスト天井と,並列スケーリングにおける検証ギャップという2つの基本的制約により,スケーリング手法がいずれも実効的なパフォーマンス改善をもたらすことが判明した。
コードはhttps://github.com/cxcscmu/General-AgentBench.comで公開されている。
関連論文リスト
- Toward Scalable Verifiable Reward: Proxy State-Based Evaluation for Multi-turn Tool-Calling LLM Agents [8.760287445955045]
大規模言語モデル (LLM) エージェントは多ターン対話や多段階のツール呼び出しによって運用に利用されつつある。
以前のエージェントベンチマークは、ビルドとイテレーションにコストがかかる、完全に決定論的バックエンドに依存していた。
決定論的データベースを使わずに最終状態ベース評価を保持するLLM駆動型シミュレーションフレームワークであるProxy State-Based Evaluationを提案する。
論文 参考訳(メタデータ) (2026-02-18T07:49:47Z) - On Generalization in Agentic Tool Calling: CoreThink Agentic Reasoner and MAVEN Dataset [16.921428284844684]
エージェントツールコール環境間の一般化は、信頼できる推論システムを開発する上で重要な未解決課題である。
本稿では、構造化分解と適応ツールオーケストレーションのための軽量なシンボリック推論層を用いて、大規模言語モデルを強化するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T00:58:48Z) - DeepAgent: A General Reasoning Agent with Scalable Toolsets [111.6384541877723]
DeepAgentは、自律的な思考、ツール発見、アクション実行を実行するエンドツーエンドのディープ推論エージェントである。
長期にわたる相互作用の課題に対処するために,過去の相互作用を構造化エピソード,動作,ツール記憶に圧縮する自律的メモリ折り畳み機構を導入する。
LLMシミュレートされたAPIを活用し、ツール呼び出しトークンにきめ細かいクレジットを割り当てるツールコールアドバンテージ属性を適用した、エンドツーエンドの強化学習戦略であるToolPOを開発した。
論文 参考訳(メタデータ) (2025-10-24T16:24:01Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - AgentQuest: A Modular Benchmark Framework to Measure Progress and Improve LLM Agents [19.439775106707344]
AgentQuestは、ベンチマークとメトリクスがモジュール化され、十分にドキュメント化され使いやすいAPIを通じて容易に利用できるフレームワークである。
課題を解決しながら LLM エージェントの進捗を確実に追跡できる2つの新しい評価指標を提供する。
一般的な障害点を特定し,エージェントアーキテクチャを洗練し,大幅な性能向上を実現する2つのユースケースにおけるメトリクスの有用性を実証する。
論文 参考訳(メタデータ) (2024-04-09T16:01:24Z) - AgentBench: Evaluating LLMs as Agents [99.12825098528212]
エージェントとしてのLarge Language Model (LLM)は近年広く認知されている。
我々は,LLM-as-Agentの推論と意思決定能力を評価するために,8つの異なる環境からなるベンチマークであるAgentBenchを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。