論文の概要: CocoaBench: Evaluating Unified Digital Agents in the Wild
- arxiv url: http://arxiv.org/abs/2604.11201v1
- Date: Mon, 13 Apr 2026 09:00:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.444073
- Title: CocoaBench: Evaluating Unified Digital Agents in the Wild
- Title(参考訳): CocoaBench: 統一されたデジタルエージェントを野生で評価する
- Authors: CocoaBench Team, Shibo Hao, Zhining Zhang, Zhiqi Liang, Tianyang Liu, Yuheng Zha, Qiyue Gao, Jixuan Chen, Zilong Wang, Zhoujun Cheng, Haoxiang Zhang, Junli Wang, Hexi Jin, Boyuan Zheng, Kun Zhou, Yu Wang, Feng Yao, Licheng Liu, Yijiang Li, Zhifei Li, Zhengtao Han, Pracha Promthaw, Tommaso Cerruti, Xiaohan Fu, Ziqiao Ma, Jingbo Shang, Lianhui Qin, Julian McAuley, Eric P. Xing, Zhengzhong Liu, Rupesh Kumar Srivastava, Zhiting Hu,
- Abstract要約: ココアベンチ(CocoaBench)は、人間によって設計された長距離タスクから構築された統合デジタルエージェントのベンチマークである。
また、モデルバックボーン間の比較を制御できる軽量な共有足場であるCocoaAgentについても紹介する。
- 参考スコア(独自算出の注目度): 98.84044600506597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM agents now perform strongly in software engineering, deep research, GUI automation, and various other applications, while recent agent scaffolds and models are increasingly integrating these capabilities into unified systems. Yet, most evaluations still test these capabilities in isolation, which leaves a gap for more diverse use cases that require agents to combine different capabilities. We introduce CocoaBench, a benchmark for unified digital agents built from human-designed, long-horizon tasks that require flexible composition of vision, search, and coding. Tasks are specified only by an instruction and an automatic evaluation function over the final output, enabling reliable and scalable evaluation across diverse agent infrastructures. We also present CocoaAgent, a lightweight shared scaffold for controlled comparison across model backbones. Experiments show that current agents remain far from reliable on CocoaBench, with the best evaluated system achieving only 45.1% success rate. Our analysis further points to substantial room for improvement in reasoning and planning, tool use and execution, and visual grounding.
- Abstract(参考訳): LLMエージェントは、ソフトウェアエンジニアリング、ディープリサーチ、GUI自動化、その他の様々なアプリケーションで強く機能する一方、最近のエージェントの足場とモデルは、これらの機能を統一システムに統合し続けている。
しかし、ほとんどの評価ではこれらの機能を分離してテストしており、異なる機能を組み合わせるためにエージェントを必要とする、より多様なユースケースのギャップが残っている。
視覚、検索、コーディングの柔軟な構成を必要とする人間設計の長い水平タスクから構築された統合デジタルエージェントのベンチマークであるCocoaBenchを紹介する。
タスクは、最終出力に対する命令と自動評価機能によってのみ指定され、多様なエージェントインフラストラクチャにわたって信頼性とスケーラブルな評価を可能にする。
また、モデルバックボーン間の比較を制御できる軽量な共有足場であるCocoaAgentについても紹介する。
実験によると、現在のエージェントはCocoaBenchでは信頼性が低く、最も評価の高いシステムは45.1%の成功率しか達成していない。
分析ではさらに、推論と計画、ツールの使用と実行、視覚的グラウンド化の改善の余地が指摘されている。
関連論文リスト
- The Evolution of Tool Use in LLM Agents: From Single-Tool Call to Multi-Tool Orchestration [58.61149924275458]
ツールの使用により、大きな言語モデルが外部情報にアクセスし、ソフトウェアシステムを実行し、モデルパラメータだけで解決できるもの以外のデジタル環境で動作することができる。
エージェントシステムが進化するにつれて、中央の問題は、中途半端な状態、実行フィードバック、環境の変化、安全性、コスト、検証可能性といった実践的な制約によって、孤立呼び出しからマルチツールオーケストレーションへと移行した。
推論時の計画と実行、トレーニングと軌道構築、安全と制御、リソース制約下での効率性、オープン環境における能力の完全性、およびベンチマーク設計と評価の6つの分野に関する文献を整理する。
論文 参考訳(メタデータ) (2026-03-24T07:05:05Z) - A Cloud-based Multi-Agentic Workflow for Science [0.12314765641075438]
大型言語モデル(LLM)は、様々な科学領域にまたがって広く普及している。
シミュレーションの実行や複雑な決定といった複雑なタスクを実行する能力の欠如は、彼らのユーティリティを制限します。
我々は、完全にクラウド上で実行されている間、科学的アシスタントとして機能するエージェントフレームワークに対して、ドメインに依存しない、モデルに依存しないワークフローを提示します。
論文 参考訳(メタデータ) (2026-01-18T22:37:09Z) - Confucius Code Agent: Scalable Agent Scaffolding for Real-World Codebases [44.366968508477235]
大規模に運用可能なスケーラブルなソフトウェアエンジニアリングエージェントであるConfucius Code Agent (CCA)を紹介した。
CCAはConfucius SDKの上に構築されている。
さらに,エージェント構成の合成,評価,洗練を自動化するメタエージェントを導入する。
論文 参考訳(メタデータ) (2025-12-11T08:05:58Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - AgentGit: A Version Control Framework for Reliable and Scalable LLM-Powered Multi-Agent Systems [7.408263799616532]
AgentGitはGitライクなロールバックとブランチをマルチエージェントシステム(MAS)にもたらすフレームワークです。
AgentGitは冗長、ランタイム、トークンの使用を著しく削減し、複数のブランチをまたいだ並列探索をサポートしています。
この作業は、より堅牢なMAS設計への実践的なパスを提供し、コラボレーティブAIシステムにおけるエラー回復、安全な探索、計算、A/Bテストを可能にする。
論文 参考訳(メタデータ) (2025-11-01T17:11:31Z) - AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。
既存のエージェントサーチ手法には3つの大きな制限がある。
これらの課題に対処するための包括的なフレームワークを導入します。
論文 参考訳(メタデータ) (2025-06-06T12:07:23Z) - MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents [59.825725526176655]
大規模言語モデル(LLM)は、自律的なエージェントとして顕著な能力を示している。
既存のベンチマークでは、単一エージェントタスクにフォーカスするか、狭いドメインに限定されており、マルチエージェントのコーディネーションと競合のダイナミクスを捉えていない。
多様な対話シナリオにまたがってLLMベースのマルチエージェントシステムを評価するためのベンチマークであるMultiAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-03T05:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。