論文の概要: OpenHands: An Open Platform for AI Software Developers as Generalist Agents
- arxiv url: http://arxiv.org/abs/2407.16741v2
- Date: Fri, 4 Oct 2024 14:54:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 15:23:20.932141
- Title: OpenHands: An Open Platform for AI Software Developers as Generalist Agents
- Title(参考訳): OpenHands: ジェネラリストエージェントとしてのAIソフトウェア開発者のためのオープンプラットフォーム
- Authors: Xingyao Wang, Boxuan Li, Yufan Song, Frank F. Xu, Xiangru Tang, Mingchen Zhuge, Jiayi Pan, Yueqi Song, Bowen Li, Jaskirat Singh, Hoang H. Tran, Fuqiang Li, Ren Ma, Mingzhang Zheng, Bill Qian, Yanjun Shao, Niklas Muennighoff, Yizhe Zhang, Binyuan Hui, Junyang Lin, Robert Brennan, Hao Peng, Heng Ji, Graham Neubig,
- Abstract要約: 私たちは、人間の開発者と同じような方法で世界と対話するAIエージェントを開発するためのプラットフォームであるOpenHandsを紹介します。
プラットフォームが新しいエージェントの実装を可能にし、コード実行のためのサンドボックス環境との安全なインタラクション、評価ベンチマークの導入について説明する。
- 参考スコア(独自算出の注目度): 109.8507367518992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software is one of the most powerful tools that we humans have at our disposal; it allows a skilled programmer to interact with the world in complex and profound ways. At the same time, thanks to improvements in large language models (LLMs), there has also been a rapid development in AI agents that interact with and affect change in their surrounding environments. In this paper, we introduce OpenHands (f.k.a. OpenDevin), a platform for the development of powerful and flexible AI agents that interact with the world in similar ways to those of a human developer: by writing code, interacting with a command line, and browsing the web. We describe how the platform allows for the implementation of new agents, safe interaction with sandboxed environments for code execution, coordination between multiple agents, and incorporation of evaluation benchmarks. Based on our currently incorporated benchmarks, we perform an evaluation of agents over 15 challenging tasks, including software engineering (e.g., SWE-BENCH) and web browsing (e.g., WEBARENA), among others. Released under the permissive MIT license, OpenHands is a community project spanning academia and industry with more than 2.1K contributions from over 188 contributors.
- Abstract(参考訳): ソフトウェアは人間の手元にある最も強力なツールの1つです。熟練したプログラマが複雑で深い方法で世界と対話することを可能にするのです。
同時に、大きな言語モデル(LLM)の改善により、周辺環境の変化と相互作用し、影響を及ぼすAIエージェントの急速な開発も行われている。
本稿では,人間の開発者と同じような方法で世界と対話する,強力で柔軟なAIエージェントを開発するためのプラットフォームであるOpenHands(f.k.OpenDevin)を紹介します。
本稿では,新しいエージェントの実装,コード実行のためのサンドボックス環境との安全なインタラクション,複数エージェント間の調整,評価ベンチマークの導入について述べる。
現在組み込まれているベンチマークに基づいて、ソフトウェアエンジニアリング(SWE-BENCHなど)やWebブラウジング(WEBARENAなど)を含む15の課題タスクに対してエージェントの評価を行う。
寛容なMITライセンスの下でリリースされているOpenHandsは、学術と産業にまたがるコミュニティプロジェクトであり、188人以上のコントリビュータから2.1K以上のコントリビューションがある。
関連論文リスト
- Improving Performance of Commercially Available AI Products in a Multi-Agent Configuration [11.626057561212694]
クラウドボティックス PRD AIは、AIを使用してソフトウェア要件を生成するツールである。
GitHub Copilotは、AIペアプログラミングツールである。
PRD AIからビジネス要件を共有することで、GitHub Copilotのコード提案能力を13.8%改善し、開発者のタスク成功率を24.5%改善します。
論文 参考訳(メタデータ) (2024-10-29T15:28:19Z) - Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - AgileCoder: Dynamic Collaborative Agents for Software Development based on Agile Methodology [5.164094478488741]
AgileCoderは、Agile Methodology(AM)をフレームワークに統合するマルチエージェントシステムである。
このシステムは、Product Manager、Developer、Testerといった特定のAMロールを異なるエージェントに割り当て、ユーザ入力に基づいて協調してソフトウェアを開発する。
論文 参考訳(メタデータ) (2024-06-16T17:57:48Z) - AutoDev: Automated AI-Driven Development [9.586330606828643]
AutoDevは完全に自動化されたAI駆動ソフトウェア開発フレームワークである。
ユーザはAutoDevの自律AIエージェントに割り当てられる複雑なソフトウェアエンジニアリングの目標を定義することができる。
AutoDevは、Dockerコンテナ内のすべての操作を集約することで、セキュアな開発環境を確立する。
論文 参考訳(メタデータ) (2024-03-13T07:12:03Z) - AgentScope: A Flexible yet Robust Multi-Agent Platform [66.64116117163755]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。
豊富な構文ツール、組み込みエージェントとサービス機能、アプリケーションのデモとユーティリティモニタのためのユーザフレンドリなインターフェース、ゼロコードプログラミングワークステーション、自動プロンプトチューニング機構により、開発とデプロイメントの両方の障壁は大幅に低下した。
論文 参考訳(メタデータ) (2024-02-21T04:11:28Z) - OpenAgents: An Open Platform for Language Agents in the Wild [71.16800991568677]
OpenAgentsは、日々の生活の中で言語エージェントを使い、ホストするためのオープンなプラットフォームです。
我々は課題と機会を解明し、現実世界の言語エージェントの将来の研究と開発の基礎を築きたいと考えています。
論文 参考訳(メタデータ) (2023-10-16T17:54:53Z) - Agents: An Open-source Framework for Autonomous Language Agents [98.91085725608917]
我々は、言語エージェントを人工知能への有望な方向と見なしている。
Agentsはオープンソースライブラリで、これらの進歩を広く非専門的な聴衆に開放することを目的としています。
論文 参考訳(メタデータ) (2023-09-14T17:18:25Z) - Polycraft World AI Lab (PAL): An Extensible Platform for Evaluating
Artificial Intelligence Agents [0.0]
The Polycraft World AI Lab (PAL)は、Minecraft mod Polycraft WorldをベースとしたAPIを備えたタスクシミュレータである。
PALは、フレキシブルな方法でタスクを作成するだけでなく、評価中にタスクのあらゆる側面を操作することができる。
まとめると、AI研究者が利用する参入障壁が低く、多目的かつAI評価プラットフォームを報告します。
論文 参考訳(メタデータ) (2023-01-27T18:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。