論文の概要: AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts
- arxiv url: http://arxiv.org/abs/2601.11044v2
- Date: Mon, 19 Jan 2026 13:21:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 14:05:45.2124
- Title: AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts
- Title(参考訳): AgencyBench: 100万件のリアルタイムコンテキストにおける自律エージェントのフロンティアのベンチマーク
- Authors: Keyu Li, Junhao Shi, Yang Xiao, Mohan Jiang, Jie Sun, Yunze Wu, Shijie Xia, Xiaojie Cai, Tianze Xu, Weiye Si, Wenjie Li, Dequan Wang, Pengfei Liu,
- Abstract要約: 大規模言語モデル(LLM)に基づく自律エージェントは、経済的生産に大きく貢献する多面的能力を示す。
我々は、毎日のAI使用から派生したベンチマークであるAgentBenchを紹介し、32の現実シナリオにわたる6つのコアエージェント能力を評価した。
これらのシナリオでは、平均90のツールコール、100万のトークン、解決に必要な実行時間が必要です。
- 参考スコア(独自算出の注目度): 35.52607495764441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) based autonomous agents demonstrate multifaceted capabilities to contribute substantially to economic production. However, existing benchmarks remain focused on single agentic capability, failing to capture long-horizon real-world scenarios. Moreover, the reliance on human-in-the-loop feedback for realistic tasks creates a scalability bottleneck, hindering automated rollout collection and evaluation. To bridge this gap, we introduce AgencyBench, a comprehensive benchmark derived from daily AI usage, evaluating 6 core agentic capabilities across 32 real-world scenarios, comprising 138 tasks with specific queries, deliverables, and rubrics. These scenarios require an average of 90 tool calls, 1 million tokens, and hours of execution time to resolve. To enable automated evaluation, we employ a user simulation agent to provide iterative feedback, and a Docker sandbox to conduct visual and functional rubric-based assessment. Experiments reveal that closed-source models significantly outperform open-source models (48.4% vs 32.1%). Further analysis reveals significant disparities across models in resource efficiency, feedback-driven self-correction, and specific tool-use preferences. Finally, we investigate the impact of agentic scaffolds, observing that proprietary models demonstrate superior performance within their native ecosystems (e.g., Claude-4.5-Opus via Claude-Agent-SDK), while open-source models exhibit distinct performance peaks, suggesting potential optimization for specific execution frameworks. AgencyBench serves as a critical testbed for next-generation agents, highlighting the necessity of co-optimizing model architecture with agentic frameworks. We believe this work sheds light on the future direction of autonomous agents, and we release the full benchmark and evaluation toolkit at https://github.com/GAIR-NLP/AgencyBench.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく自律エージェントは、経済的生産に大きく貢献する多面的能力を示す。
しかし、既存のベンチマークは依然として単一のエージェント能力に重点を置いており、長期の現実世界のシナリオを捉えていない。
さらに、実際のタスクに対するヒューマン・イン・ザ・ループのフィードバックへの依存はスケーラビリティのボトルネックを生み出し、自動ロールアウトの収集と評価を妨げる。
このギャップを埋めるために、AgentBenchを紹介します。これは、日々のAI使用から派生した包括的なベンチマークで、32の現実シナリオにわたる6つのコアエージェント能力を評価します。
これらのシナリオでは、平均90のツールコール、100万のトークン、解決に必要な実行時間が必要です。
自動評価を実現するために、ユーザシミュレーションエージェントを使用して反復的なフィードバックを提供し、Dockerサンドボックスを使用して視覚的かつ機能的なルーリックベースの評価を行います。
実験の結果、クローズドソースモデルはオープンソースモデル(48.4%対32.1%)を大幅に上回っていることが明らかになった。
さらなる分析により、リソース効率、フィードバック駆動の自己補正、特定のツール使用の嗜好において、モデル間で大きな差異が明らかになる。
最後に、エージェントの足場の影響を調査し、プロプライエタリなモデルがネイティブエコシステム(例えば、Claude-4.5-Opus via Claude-Agent-SDK)において優れたパフォーマンスを示すのに対して、オープンソースモデルは、特定の実行フレームワークに対して潜在的に最適化されたパフォーマンスのピークを示す。
AgencyBenchは次世代エージェントにとって重要なテストベッドとして機能し、エージェントフレームワークによるモデルアーキテクチャの最適化の必要性を強調している。
この作業は、自律エージェントの今後の方向性に光を当てていると信じており、ベンチマークと評価ツールキットをhttps://github.com/GAIR-NLP/AgencyBench.comでリリースしています。
関連論文リスト
- Current Agents Fail to Leverage World Model as Tool for Foresight [61.82522354207919]
エージェントは、行動する前に結果を予測するためにそれらを使用できます。
本稿では,現在のエージェントがそのような世界モデルを,認知力を高めるツールとして活用できるかどうかを実証的に検討する。
論文 参考訳(メタデータ) (2026-01-07T13:15:23Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - Towards Outcome-Oriented, Task-Agnostic Evaluation of AI Agents [1.0305173936249623]
白書では、AIエージェントの成果に基づくタスク非依存のパフォーマンス指標11の新たなフレームワークを提案する。
本稿では、ゴール完了率(GCR)、自律度指数(AIx)、マルチステップタスクレジリエンス(MTR)、ビジネスインパクト効率(BIE)などの指標を紹介する。
この結果から, エージェント設計の相違が顕著であり, ハイブリットエージェントを一貫した高性能モデルとして強調した。
論文 参考訳(メタデータ) (2025-11-11T13:40:46Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - Scaling Agents via Continual Pre-training [80.97989245493326]
我々は,エージェント連続事前学習(Agentic CPT)を深層研究エージェント訓練パイプラインに組み込んで,強力なエージェント基礎モデルを構築することを提案する。
我々は,AgentFounder-30Bを10のベンチマークで評価し,強力なツール使用能力を保ちながら最先端のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2025-09-16T17:57:19Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving [31.127210974372456]
VLM(Vision-Language Models)は、自律走行を約束するが、幻覚、非効率な推論、限られた実世界の検証は、正確な知覚と堅牢なステップバイステップ推論を妨げる。
我々は、Chain-of-Thought(CoT)推論と、自律運転タスクのための動的エージェントスタイルのツール呼び出しを統合した、先駆的な統合フレームワークであるtextbfAgentThinkを紹介した。
論文 参考訳(メタデータ) (2025-05-21T09:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。