論文の概要: AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents
- arxiv url: http://arxiv.org/abs/2407.18901v1
- Date: Fri, 26 Jul 2024 17:55:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 12:39:55.417167
- Title: AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents
- Title(参考訳): AppWorld:インタラクティブコーディングエージェントをベンチマークするアプリケーションと人々のコントロール可能な世界
- Authors: Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, Niranjan Balasubramanian,
- Abstract要約: AppWorldは高品質な実行環境(60K行のコード)で、毎日9つのアプリが457のAPIを通じて動作可能である。
$textbfAppWorld Benchmark$ (40K行のコード)は、750の自然で多様な自律エージェントタスクからなるスイートである。
- 参考スコア(独自算出の注目度): 44.16450035387395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous agents that address day-to-day digital tasks (e.g., ordering groceries for a household), must not only operate multiple apps (e.g., notes, messaging, shopping app) via APIs, but also generate rich code with complex control flow in an iterative manner based on their interaction with the environment. However, existing benchmarks for tool use are inadequate, as they only cover tasks that require a simple sequence of API calls. To remedy this gap, we built $\textbf{AppWorld Engine}$, a high-quality execution environment (60K lines of code) of 9 day-to-day apps operable via 457 APIs and populated with realistic digital activities simulating the lives of ~100 fictitious users. We then created $\textbf{AppWorld Benchmark}$ (40K lines of code), a suite of 750 natural, diverse, and challenging autonomous agent tasks requiring rich and interactive code generation. It supports robust programmatic evaluation with state-based unit tests, allowing for different ways of completing a task while also checking for unexpected changes, i.e., collateral damage. The state-of-the-art LLM, GPT-4o, solves only ~49% of our 'normal' tasks and ~30% of 'challenge' tasks, while other models solve at least 16% fewer. This highlights the benchmark's difficulty and AppWorld's potential to push the frontiers of interactive coding agents. The project website is available at https://appworld.dev/.
- Abstract(参考訳): 日々のデジタルタスク(例えば、家庭で食料品を注文するなど)に対処する自律エージェントは、API経由で複数のアプリ(例えば、メモ、メッセージング、ショッピングアプリ)を操作するだけでなく、環境とのインタラクションに基づいて、複雑な制御フローを持つリッチコードを生成する必要があります。
しかし、ツール使用のための既存のベンチマークは、単純なAPI呼び出しのシーケンスを必要とするタスクのみをカバーするため、不十分である。
このギャップを埋めるために、私たちは$\textbf{AppWorld Engine}$を構築しました。これは、9つの日々のアプリケーションの高品質な実行環境(60K行のコード)で、457のAPIを通して操作可能で、100人の架空のユーザの生活をシミュレートするリアルなデジタルアクティビティに満ちています。
次に$\textbf{AppWorld Benchmark}$ (40K行のコード)を作りました。
状態ベースの単体テストによる堅牢なプログラム的評価をサポートし、タスクを完了し、予期せぬ変更、すなわち副次的ダメージをチェックできる。
最先端のLCMであるGPT-4oは、我々の「通常の」タスクの49%と「混み合う」タスクの30%しか解決していないが、他のモデルは少なくとも16%少ない。
これは、ベンチマークの難しさと、インタラクティブなコーディングエージェントのフロンティアを推し進めるAppWorldの可能性を強調している。
プロジェクトのWebサイトはhttps://appworld.dev/.comで公開されている。
関連論文リスト
- APITestGenie: Automated API Test Generation through Generative AI [2.0716352593701277]
APITestGenieはビジネス要件とAPI仕様から実行可能なAPIテストスクリプトを生成する。
10の現実世界のAPIを使った実験では、ツールが有効なテストスクリプトを57%生成した。
人間の介入は、CI/CDパイプラインに統合される前に生成されたスクリプトを検証または洗練するために推奨される。
論文 参考訳(メタデータ) (2024-09-05T18:02:41Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - $τ$-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains [43.43344028212623]
$tau$-benchは、ユーザと言語エージェント間の動的会話をエミュレートするベンチマークである。
我々は、会話の最後にデータベースの状態と注釈付きゴール状態を比較する、効率的で忠実な評価プロセスを採用する。
論文 参考訳(メタデータ) (2024-06-17T19:33:08Z) - AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents [5.044046039265116]
私たちは、20の現実世界のAndroidアプリに116のプログラムタスクに対して報酬信号を提供する、完全に機能するAndroid環境であるAndroidWorldを紹介します。
静的テストセットを提供する既存のインタラクティブ環境とは異なり、AndroidWorldはパラメータ化され自然言語で表現されるタスクを動的に構築する。
私たちの最高のエージェントは、AndroidWorldのタスクの30.6%を完了できます。
論文 参考訳(メタデータ) (2024-05-23T13:48:54Z) - OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [87.41051677852231]
マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。
OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。
オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
論文 参考訳(メタデータ) (2024-04-11T17:56:05Z) - Executable Code Actions Elicit Better LLM Agents [76.95566120678787]
この研究は、Pythonコードを使用して、Large Language Model(LLM)エージェントのアクションを統一されたアクション空間(CodeAct)に統合することを提案する。
Pythonインタプリタと統合されたCodeActは、コードアクションを実行し、事前アクションを動的に修正したり、マルチターンインタラクションを通じて新しい観察に新しいアクションを発行することができる。
CodeActのパフォーマンス向上は、解釈可能なコードを実行し、自然言語を使ってユーザとコラボレーションすることで、環境と対話するオープンソースのLLMエージェントを構築する動機となります。
論文 参考訳(メタデータ) (2024-02-01T21:38:58Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。