論文の概要: AgentStudio: A Toolkit for Building General Virtual Agents
- arxiv url: http://arxiv.org/abs/2403.17918v1
- Date: Tue, 26 Mar 2024 17:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 14:18:09.944673
- Title: AgentStudio: A Toolkit for Building General Virtual Agents
- Title(参考訳): AgentStudio: 一般的な仮想エージェントを構築するためのツールキット
- Authors: Longtao Zheng, Zhiyuan Huang, Zhenghai Xue, Xinrun Wang, Bo An, Shuicheng Yan,
- Abstract要約: 我々はエージェント開発の全ライフサイクルをカバーするオンラインで現実的でマルチモーダルなツールキットであるAgentStudioを紹介した。
これには環境設定、データ収集、エージェント評価、可視化が含まれる。
環境、データセット、ベンチマーク、インターフェースをオープンソース化し、一般的な仮想エージェントの開発に向けた研究を促進しました。
- 参考スコア(独自算出の注目度): 57.02375267926862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creating autonomous virtual agents capable of using arbitrary software on any digital device remains a major challenge for artificial intelligence. Two key obstacles hinder progress: insufficient infrastructure for building virtual agents in real-world environments, and the need for in-the-wild evaluation of fundamental agent abilities. To address this, we introduce AgentStudio, an online, realistic, and multimodal toolkit that covers the entire lifecycle of agent development. This includes environment setups, data collection, agent evaluation, and visualization. The observation and action spaces are highly generic, supporting both function calling and human-computer interfaces. This versatility is further enhanced by AgentStudio's graphical user interfaces, which allow efficient development of datasets and benchmarks in real-world settings. To illustrate, we introduce a visual grounding dataset and a real-world benchmark suite, both created with our graphical interfaces. Furthermore, we present several actionable insights derived from AgentStudio, e.g., general visual grounding, open-ended tool creation, learning from videos, etc. We have open-sourced the environments, datasets, benchmarks, and interfaces to promote research towards developing general virtual agents for the future.
- Abstract(参考訳): 任意のソフトウェアを任意のデジタルデバイスで使用できる自律的な仮想エージェントを作ることは、人工知能にとって大きな課題である。
2つの主要な障害は、現実世界環境における仮想エージェント構築のインフラ不足と、基本的なエージェント能力の評価の必要性である。
これを解決するために、エージェント開発の全ライフサイクルをカバーするオンラインで現実的でマルチモーダルなツールキットであるAgentStudioを紹介します。
これには環境設定、データ収集、エージェント評価、可視化が含まれる。
観察空間と行動空間は、関数呼び出しとヒューマンコンピュータインタフェースの両方をサポートする非常に一般的なものである。
この汎用性は、AgentStudioのグラフィカルユーザインターフェースによってさらに強化され、実際の設定でデータセットとベンチマークを効率的に開発することができる。
説明するために、ビジュアルグラウンドデータセットと実世界のベンチマークスイートを導入し、どちらもグラフィカルインターフェースで作成しました。
さらに、AgentStudio、eg、一般的なビジュアルグラウンド、オープンなツール作成、ビデオからの学習など、いくつかの実用的な洞察を提示する。
環境、データセット、ベンチマーク、インターフェースをオープンソースとして公開し、将来の汎用仮想エージェントの開発に向けた研究を促進しています。
関連論文リスト
- Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。
Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文 参考訳(メタデータ) (2024-10-10T17:43:51Z) - AutoGen Studio: A No-Code Developer Tool for Building and Debugging Multi-Agent Systems [31.113305753414913]
ATOGEN STUDIOは、マルチエージェントシステムを迅速にプロトタイピングするためのノーコード開発ツールである。
エージェント仕様のための直感的なドラッグ&ドロップUI、インタラクティブな評価、再利用可能なエージェントコンポーネントのギャラリーを提供する。
論文 参考訳(メタデータ) (2024-08-09T03:27:37Z) - GTA: A Benchmark for General Tool Agents [32.443456248222695]
229個の実世界のタスクと実行可能なツールチェーンを設計し、主要な大言語モデル(LLM)を評価する。
GPT-4 はタスクの 50% 以下であり,ほとんどの LLM は 25% 以下である。
この評価は、現実シナリオにおける現在のLLMのツール利用能力のボトルネックを明らかにし、汎用ツールエージェントを前進させるための今後の方向性を提供する。
論文 参考訳(メタデータ) (2024-07-11T17:50:09Z) - AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents [50.39555842254652]
我々は,モバイルシナリオにおけるAIエージェントの研究を進めるために,Android Multi-Annotation EXpo (AMEX)を紹介した。
AMEXは110のモバイルアプリケーションから104K以上の高解像度のスクリーンショットで構成されており、複数のレベルでアノテートされている。
AMEXには、GUIインタラクティブな要素接地、GUIスクリーンと要素機能記述、複雑な自然言語命令の3段階のアノテーションが含まれている。
論文 参考訳(メタデータ) (2024-07-03T17:59:58Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - WebCanvas: Benchmarking Web Agents in Online Environments [29.278363444725628]
WebCanvasは、Webエージェントのための革新的なオンライン評価フレームワークである。
我々は、推論のためのモジュールを備えたエージェントフレームワークをオープンソースとして公開し、コミュニティがオンライン推論と評価を行うための基盤を提供します。
ベストパフォーマンスエージェントは,Mind2Web-Liveテストセット上でのタスク成功率23.1%,タスク完了率48.8%を達成する。
論文 参考訳(メタデータ) (2024-06-18T07:58:33Z) - OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [87.41051677852231]
マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。
OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。
オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
論文 参考訳(メタデータ) (2024-04-11T17:56:05Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z) - Robust Object Detection via Instance-Level Temporal Cycle Confusion [89.1027433760578]
物体検出器の分布外一般化を改善するための補助的自己監視タスクの有効性を検討する。
最大エントロピーの原理に触発されて,新しい自己監督タスクであるインスタンスレベル時間サイクル混乱(cycconf)を導入する。
それぞれのオブジェクトに対して、タスクは、ビデオ内の隣接するフレームで最も異なるオブジェクトの提案を見つけ、自己スーパービジョンのために自分自身にサイクルバックすることです。
論文 参考訳(メタデータ) (2021-04-16T21:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。