論文の概要: ProSoftArena: Benchmarking Hierarchical Capabilities of Multimodal Agents in Professional Software Environments
- arxiv url: http://arxiv.org/abs/2601.02399v1
- Date: Tue, 30 Dec 2025 01:49:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.623371
- Title: ProSoftArena: Benchmarking Hierarchical Capabilities of Multimodal Agents in Professional Software Environments
- Title(参考訳): ProSoftArena: プロフェッショナルソフトウェア環境でのマルチモーダルエージェントの階層的能力のベンチマーク
- Authors: Jiaxin Ai, Yukang Feng, Fanrui Zhang, Jianwen Sun, Zizhen Li, Chuanhao Li, Yifan Chang, Wenxiao Wu, Ruoxi Wang, Mingliang Zhai, Kaipeng Zhang,
- Abstract要約: ProSoftArenaは、プロのソフトウェア環境でマルチモーダルエージェントを評価するためのベンチマークとプラットフォームである。
我々は6つの分野と13のコア・プロフェッショナル・アプリケーションにまたがる436の現実的な作業と研究タスクのベンチマークを構築した。
実験によると、最高のパフォーマンスのエージェントでさえ、L2タスクで24.4%の成功率しか得られず、L3マルチソフトウェアワークフローで完全に失敗している。
- 参考スコア(独自算出の注目度): 38.962177759605595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal agents are making rapid progress on general computer-use tasks, yet existing benchmarks remain largely confined to browsers and basic desktop applications, falling short in professional software workflows that dominate real-world scientific and industrial practice. To close this gap, we introduce ProSoftArena, a benchmark and platform specifically for evaluating multimodal agents in professional software environments. We establish the first capability hierarchy tailored to agent use of professional software and construct a benchmark of 436 realistic work and research tasks spanning 6 disciplines and 13 core professional applications. To ensure reliable and reproducible assessment, we build an executable real-computer environment with an execution-based evaluation framework and uniquely incorporate a human-in-the-loop evaluation paradigm. Extensive experiments show that even the best-performing agent attains only a 24.4\% success rate on L2 tasks and completely fails on L3 multi-software workflow. In-depth analysis further provides valuable insights for addressing current agent limitations and more effective design principles, paving the way to build more capable agents in professional software settings. This project is available at: https://prosoftarena.github.io.
- Abstract(参考訳): マルチモーダルエージェントは、一般的なコンピュータ利用タスクで急速に進歩しているが、既存のベンチマークは、ブラウザや基本的なデスクトップアプリケーションに限られており、現実の科学や産業の実践を支配しているプロのソフトウェアワークフローでは不足している。
このギャップを埋めるために、プロのソフトウェア環境でマルチモーダルエージェントを評価するためのベンチマークとプラットフォームであるProSoftArenaを紹介します。
プロフェッショナルソフトウェアのエージェント使用に適した最初の能力階層を確立し,6つの分野と13のコアプロフェッショナルアプリケーションにまたがる436の現実的な作業と研究タスクのベンチマークを構築した。
信頼性と再現性を確保するため,実行ベース評価フレームワークを用いて実行可能な実コンピュータ環境を構築し,ループ内評価パラダイムを独自に取り入れた。
大規模な実験によると、最高のパフォーマンスのエージェントでさえ、L2タスクで24.4倍の成功率しか得られず、L3マルチソフトウェアワークフローで完全に失敗する。
詳細な分析は、現在のエージェント制限とより効果的な設計原則に対処するための貴重な洞察を与え、プロフェッショナルなソフトウェア設定でより有能なエージェントを構築する方法を確立します。
このプロジェクトは、https://prosoftarena.github.io.comで入手できる。
関連論文リスト
- LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly? [19.772188613944596]
大規模言語モデル(LLM)は、ソフトウェア工学を含むほぼすべての産業を再構築している。
我々は,実世界のソフトウェア問題を解決する際に,自律的かつ連続的に自己進化できる,初のライブソフトウェアエージェントであるLive-SWE-agentを提案する。
広範に研究されているSWE-bench Verifiedベンチマークでは,Live-SWE-AGENTがテスト時間スケーリングなしで77.4%の精度で解決できることが示されている。
論文 参考訳(メタデータ) (2025-11-17T17:58:18Z) - A Comprehensive Empirical Evaluation of Agent Frameworks on Code-centric Software Engineering Tasks [14.762911285395047]
代表的な3つのコード中心タスクにまたがる7つの汎用エージェントフレームワークを評価する。
この結果から,評価フレームワーク間の機能パターンとトレードオフが明らかとなった。
オーバヘッドに関しては、ソフトウェア開発が最も金銭コストが高いのに対して、GPTswarmは依然として最もコスト効率が高い。
論文 参考訳(メタデータ) (2025-11-02T09:46:59Z) - OutboundEval: A Dual-Dimensional Benchmark for Expert-Level Intelligent Outbound Evaluation of Xbench's Professional-Aligned Series [36.88936933010042]
OutboundEvalは、インテリジェントなアウトバウンドコールシナリオにおいて、大きな言語モデル(LLM)を評価するための包括的なベンチマークである。
6つの主要なビジネスドメインと30の代表的なサブシナリオにまたがるベンチマークを設計します。
本稿では,タスク実行の正確性,専門知識の適用性,適応性,ユーザエクスペリエンスの質を評価するために,タスクのバリエーションに適応する動的評価手法を提案する。
論文 参考訳(メタデータ) (2025-10-24T08:27:58Z) - MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - ProRefine: Inference-Time Prompt Refinement with Textual Feedback [10.679248386926703]
AgenticThoughtは、複数のAIエージェントが協力して推論や計画といった複雑なタスクを遂行する。
本稿では,LLMのエージェントループを用いてテキストフィードバックを生成し,適用する,革新的な推論時間最適化手法ProRefineを紹介する。
論文 参考訳(メタデータ) (2025-06-05T17:52:30Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。