論文の概要: Coding Agents with Multimodal Browsing are Generalist Problem Solvers
- arxiv url: http://arxiv.org/abs/2506.03011v1
- Date: Tue, 03 Jun 2025 15:50:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.822467
- Title: Coding Agents with Multimodal Browsing are Generalist Problem Solvers
- Title(参考訳): 多モードブラウジングを有する符号化エージェントは一般問題解である
- Authors: Aditya Bharat Soni, Boxuan Li, Xingyao Wang, Valerie Chen, Graham Neubig,
- Abstract要約: OpenHands-Versaは、控えめな多くの汎用ツールで構築された汎用AIエージェントである。
既存の最先端マルチエージェントシステムは、ターゲットドメインを超えて一般化できないことを示す。
- 参考スコア(独自算出の注目度): 48.938445118630284
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Modern human labor is characterized by specialization; we train for years and develop particular tools that allow us to perform well across a variety of tasks. In addition, AI agents have been specialized for domains such as software engineering, web navigation, and workflow automation. However, this results in agents that are good for one thing but fail to generalize beyond their intended scope. One reason for this is that agent developers provide a highly specialized set of tools or make architectural decisions optimized for a specific use case or benchmark. In this work, we ask the question: what is the minimal set of general tools that can be used to achieve high performance across a diverse set of tasks? Our answer is OpenHands-Versa, a generalist agent built with a modest number of general tools: code editing and execution, web search, as well as multimodal web browsing and file access. Importantly, OpenHands-Versa demonstrates superior or competitive performance over leading specialized agents across three diverse and challenging benchmarks: SWE-Bench Multimodal, GAIA, and The Agent Company, outperforming the best-performing previously published results with absolute improvements in success rate of 9.1, 1.3, and 9.1 points respectively. Further, we show how existing state-of-the-art multi-agent systems fail to generalize beyond their target domains. These results demonstrate the feasibility of developing a generalist agent to solve diverse tasks and establish OpenHands-Versa as a strong baseline for future research.
- Abstract(参考訳): 現代の人間の労働は特殊化が特徴であり、私たちは何年も訓練し、様々なタスクでうまく機能する特定のツールを開発しています。
さらにAIエージェントは、ソフトウェアエンジニアリング、Webナビゲーション、ワークフロー自動化といった分野に特化している。
しかし、これは一つのことに向いているが、意図した範囲を超えて一般化することができないエージェントをもたらす。
この理由の1つは、エージェント開発者が高度に専門化されたツールセットを提供したり、特定のユースケースやベンチマークに最適化されたアーキテクチャ上の決定を下すことである。
この作業では、さまざまなタスクのセットでハイパフォーマンスを達成するために使用できる、最小限の汎用ツールセットは何ですか?
私たちの答えはOpenHands-Versaで、コード編集と実行、Web検索、マルチモーダルWebブラウジング、ファイルアクセスといった、控えめな汎用ツールで構築された汎用エージェントです。
重要な点として、OpenHands-Versaは、SWE-Bench Multimodal、GAIA、The Agent Companyの3つの多種多様なベンチマークにおいて、主要な特殊エージェントよりも優れた、あるいは競争力のあるパフォーマンスを示している。
さらに,既存の最先端マルチエージェントシステムは,対象ドメインを超えて一般化できないことを示す。
これらの結果は,多様な課題を解決し,OpenHands-Versaを将来の研究の強力なベースラインとして確立するためのジェネラリストエージェントの開発の可能性を示すものである。
関連論文リスト
- Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks [94.19506319646376]
本稿では,実世界のマルチモーダル環境での視覚中心エージェント評価のためのベンチマークであるAgent-Xを紹介する。
Agent-Xは、828のエージェントタスクと、イメージ、マルチイメージ比較、ビデオ、命令テキストを含む、真の視覚的コンテキストを備えている。
その結果、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、多段階視覚タスクの解決に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-30T17:59:53Z) - InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction [35.285466934451904]
本稿では,マルチモーダル方式でコンピュータと対話できる汎用エージェントであるtextscInfantAgent-Nextを紹介する。
ひとつの大きなモデルに複雑に構築するか、モジュール性のみを提供する既存のアプローチとは異なり、当社のエージェントはツールベースと純粋な視覚エージェントを統合しています。
論文 参考訳(メタデータ) (2025-05-16T05:43:27Z) - Programming with Pixels: Computer-Use Meets Software Engineering [24.00640679767529]
汎用コンピュータ利用エージェントは、ハンドエンジニアリングツールを必要とせずに、様々なSWEタスクで特殊なツールベースのエージェントに近づいたり、超えたりすることができる。
ソフトウェアエンジニアリングエージェントの次の波を構築し評価するためのスケーラブルなテストベッドとしてPwPを確立した。
論文 参考訳(メタデータ) (2025-02-24T18:41:33Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at Scale [12.173834895070827]
大規模言語モデル(LLM)がソフトウェア工学(SE)に革命をもたらした
最近の進歩にもかかわらず、これらのシステムは一般的に特定のSE関数用に設計されている。
我々は,多種多様なSEタスクに対処するために設計された,革新的な汎用マルチエージェントシステムHyperAgentを紹介する。
論文 参考訳(メタデータ) (2024-09-09T19:35:34Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub [79.31134731122462]
オープンドメインのタスク解決能力を評価するためにOpenActベンチマークを導入します。
我々は,オープンドメインの進化するクエリに,GitHubから専門ツールを自律的に統合することで対処できる,新しいLLMベースのエージェントシステムであるOpenAgentを紹介する。
論文 参考訳(メタデータ) (2023-12-28T15:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。