論文の概要: Coding Agents with Multimodal Browsing are Generalist Problem Solvers
- arxiv url: http://arxiv.org/abs/2506.03011v1
- Date: Tue, 03 Jun 2025 15:50:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.822467
- Title: Coding Agents with Multimodal Browsing are Generalist Problem Solvers
- Title(参考訳): 多モードブラウジングを有する符号化エージェントは一般問題解である
- Authors: Aditya Bharat Soni, Boxuan Li, Xingyao Wang, Valerie Chen, Graham Neubig,
- Abstract要約: OpenHands-Versaは、控えめな多くの汎用ツールで構築された汎用AIエージェントである。
既存の最先端マルチエージェントシステムは、ターゲットドメインを超えて一般化できないことを示す。
- 参考スコア(独自算出の注目度): 48.938445118630284
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Modern human labor is characterized by specialization; we train for years and develop particular tools that allow us to perform well across a variety of tasks. In addition, AI agents have been specialized for domains such as software engineering, web navigation, and workflow automation. However, this results in agents that are good for one thing but fail to generalize beyond their intended scope. One reason for this is that agent developers provide a highly specialized set of tools or make architectural decisions optimized for a specific use case or benchmark. In this work, we ask the question: what is the minimal set of general tools that can be used to achieve high performance across a diverse set of tasks? Our answer is OpenHands-Versa, a generalist agent built with a modest number of general tools: code editing and execution, web search, as well as multimodal web browsing and file access. Importantly, OpenHands-Versa demonstrates superior or competitive performance over leading specialized agents across three diverse and challenging benchmarks: SWE-Bench Multimodal, GAIA, and The Agent Company, outperforming the best-performing previously published results with absolute improvements in success rate of 9.1, 1.3, and 9.1 points respectively. Further, we show how existing state-of-the-art multi-agent systems fail to generalize beyond their target domains. These results demonstrate the feasibility of developing a generalist agent to solve diverse tasks and establish OpenHands-Versa as a strong baseline for future research.
- Abstract(参考訳): 現代の人間の労働は特殊化が特徴であり、私たちは何年も訓練し、様々なタスクでうまく機能する特定のツールを開発しています。
さらにAIエージェントは、ソフトウェアエンジニアリング、Webナビゲーション、ワークフロー自動化といった分野に特化している。
しかし、これは一つのことに向いているが、意図した範囲を超えて一般化することができないエージェントをもたらす。
この理由の1つは、エージェント開発者が高度に専門化されたツールセットを提供したり、特定のユースケースやベンチマークに最適化されたアーキテクチャ上の決定を下すことである。
この作業では、さまざまなタスクのセットでハイパフォーマンスを達成するために使用できる、最小限の汎用ツールセットは何ですか?
私たちの答えはOpenHands-Versaで、コード編集と実行、Web検索、マルチモーダルWebブラウジング、ファイルアクセスといった、控えめな汎用ツールで構築された汎用エージェントです。
重要な点として、OpenHands-Versaは、SWE-Bench Multimodal、GAIA、The Agent Companyの3つの多種多様なベンチマークにおいて、主要な特殊エージェントよりも優れた、あるいは競争力のあるパフォーマンスを示している。
さらに,既存の最先端マルチエージェントシステムは,対象ドメインを超えて一般化できないことを示す。
これらの結果は,多様な課題を解決し,OpenHands-Versaを将来の研究の強力なベースラインとして確立するためのジェネラリストエージェントの開発の可能性を示すものである。
関連論文リスト
- HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at Scale [12.173834895070827]
大規模言語モデル(LLM)がソフトウェア工学(SE)に革命をもたらした
最近の進歩にもかかわらず、これらのシステムは一般的に特定のSE関数用に設計されている。
我々は,多種多様なSEタスクに対処するために設計された,革新的な汎用マルチエージェントシステムHyperAgentを紹介する。
論文 参考訳(メタデータ) (2024-09-09T19:35:34Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。