Fugu-MT 論文翻訳(概要): AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents

論文の概要: AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents

arxiv url: http://arxiv.org/abs/2407.18901v1
Date: Fri, 26 Jul 2024 17:55:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-29 12:39:55.417167
Title: AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents
Title（参考訳）: AppWorld:インタラクティブコーディングエージェントをベンチマークするアプリケーションと人々のコントロール可能な世界
Authors: Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, Niranjan Balasubramanian,
Abstract要約: AppWorldは高品質な実行環境(60K行のコード)で、毎日9つのアプリが457のAPIを通じて動作可能である。 $textbfAppWorld Benchmark$ (40K行のコード)は、750の自然で多様な自律エージェントタスクからなるスイートである。
参考スコア（独自算出の注目度）: 44.16450035387395
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Autonomous agents that address day-to-day digital tasks (e.g., ordering groceries for a household), must not only operate multiple apps (e.g., notes, messaging, shopping app) via APIs, but also generate rich code with complex control flow in an iterative manner based on their interaction with the environment. However, existing benchmarks for tool use are inadequate, as they only cover tasks that require a simple sequence of API calls. To remedy this gap, we built $\textbf{AppWorld Engine}$, a high-quality execution environment (60K lines of code) of 9 day-to-day apps operable via 457 APIs and populated with realistic digital activities simulating the lives of ~100 fictitious users. We then created $\textbf{AppWorld Benchmark}$ (40K lines of code), a suite of 750 natural, diverse, and challenging autonomous agent tasks requiring rich and interactive code generation. It supports robust programmatic evaluation with state-based unit tests, allowing for different ways of completing a task while also checking for unexpected changes, i.e., collateral damage. The state-of-the-art LLM, GPT-4o, solves only ~49% of our 'normal' tasks and ~30% of 'challenge' tasks, while other models solve at least 16% fewer. This highlights the benchmark's difficulty and AppWorld's potential to push the frontiers of interactive coding agents. The project website is available at https://appworld.dev/.
Abstract（参考訳）: 日々のデジタルタスク(例えば、家庭で食料品を注文するなど)に対処する自律エージェントは、API経由で複数のアプリ(例えば、メモ、メッセージング、ショッピングアプリ)を操作するだけでなく、環境とのインタラクションに基づいて、複雑な制御フローを持つリッチコードを生成する必要があります。しかし、ツール使用のための既存のベンチマークは、単純なAPI呼び出しのシーケンスを必要とするタスクのみをカバーするため、不十分である。このギャップを埋めるために、私たちは$\textbf{AppWorld Engine}$を構築しました。これは、9つの日々のアプリケーションの高品質な実行環境(60K行のコード)で、457のAPIを通して操作可能で、100人の架空のユーザの生活をシミュレートするリアルなデジタルアクティビティに満ちています。次に$\textbf{AppWorld Benchmark}$ (40K行のコード)を作りました。状態ベースの単体テストによる堅牢なプログラム的評価をサポートし、タスクを完了し、予期せぬ変更、すなわち副次的ダメージをチェックできる。最先端のLCMであるGPT-4oは、我々の「通常の」タスクの49%と「混み合う」タスクの30%しか解決していないが、他のモデルは少なくとも16%少ない。これは、ベンチマークの難しさと、インタラクティブなコーディングエージェントのフロンティアを推し進めるAppWorldの可能性を強調している。プロジェクトのWebサイトはhttps://appworld.dev/.comで公開されている。

関連論文リスト

Evaluating LLMs on Sequential API Call Through Automated Test Generation [10.621357661774244]
StateGenは、シーケンシャルなAPIインタラクションを含む多様なコーディングタスクを生成するように設計された、自動化されたフレームワークである。 3つの代表的なシナリオにまたがる120の検証済みのテストケースを含むベンチマークであるStateEvalを構築します。実験の結果、StateGenは挑戦的で現実的なAPI指向のタスクを効果的に生成できることを確認した。
論文参考訳（メタデータ） (2025-07-13T03:52:51Z)
SWE-PolyBench: A multi-language benchmark for repository level evaluation of coding agents [49.73885480071402]
我々はSWE-PolyBenchを紹介した。SWE-PolyBenchは、コードエージェントのリポジトリレベル、実行ベース評価のための新しいベンチマークである。 SWE-PolyBenchには21のリポジトリから2110のインスタンスが含まれており、Java(165)、JavaScript(1017)、TypeScript(729)、Python(199)のタスクが含まれており、バグ修正、機能追加、コードを含んでいる。実験の結果,現在のエージェントは言語間で不均一なパフォーマンスを示し,複雑な問題に対処しつつ,単純なタスクで高いパフォーマンスを示すことがわかった。
論文参考訳（メタデータ） (2025-04-11T17:08:02Z)
SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文参考訳（メタデータ） (2025-03-11T17:53:02Z)
Programming with Pixels: Computer-Use Meets Software Engineering [24.00640679767529]
汎用コンピュータ利用エージェントは、ハンドエンジニアリングツールを必要とせずに、様々なSWEタスクで特殊なツールベースのエージェントに近づいたり、超えたりすることができる。ソフトウェアエンジニアリングエージェントの次の波を構築し評価するためのスケーラブルなテストベッドとしてPwPを確立した。
論文参考訳（メタデータ） (2025-02-24T18:41:33Z)
LLM Agents Making Agent Tools [2.5529148902034637]
ツールの使用は、大規模言語モデル(LLM)を、複雑なマルチステップタスクを実行できる強力なエージェントに変えた。しかし、これらのツールは人間の開発者によって事前に実装されなければならない。論文をコードで自律的にLLM互換のツールに変換するエージェントフレームワークであるToolMakerを提案する。
論文参考訳（メタデータ） (2025-02-17T11:44:11Z)
AutoDroid-V2: Boosting SLM-based GUI Agents via Code Generation [27.984521240600493]
大きな言語モデル(LLM)は、モバイルUIエージェントにエキサイティングな新しい進歩をもたらした。必要なモデルサイズを減らす方法の1つは、小さなドメイン固有のモデルをカスタマイズすることです。本稿では,UIタスクの自動化問題をコード生成問題に変換することを提案する。
論文参考訳（メタデータ） (2024-12-24T02:54:56Z)
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [52.46737975742287]
我々は、デジタルワーカーと同じような方法で世界と対話するAIエージェントを評価するためのベンチマークであるTheAgentCompanyを紹介する。最も競争力のあるエージェントは、タスクの30%を自律的に完了させることができる。これは、実際の職場の設定でLMエージェントをシミュレートすることで、タスク自動化に関する微妙な絵を描く。
論文参考訳（メタデータ） (2024-12-18T18:55:40Z)
APITestGenie: Automated API Test Generation through Generative AI [2.0716352593701277]
APITestGenieはビジネス要件とAPI仕様から実行可能なAPIテストスクリプトを生成する。 10の現実世界のAPIを使った実験では、ツールが有効なテストスクリプトを57%生成した。人間の介入は、CI/CDパイプラインに統合される前に生成されたスクリプトを検証または洗練するために推奨される。
論文参考訳（メタデータ） (2024-09-05T18:02:41Z)
CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文参考訳（メタデータ） (2024-07-01T17:55:04Z)
BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文参考訳（メタデータ） (2024-06-22T15:52:04Z)
$τ$-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains [43.43344028212623]
$tau$-benchは、ユーザと言語エージェント間の動的会話をエミュレートするベンチマークである。我々は、会話の最後にデータベースの状態と注釈付きゴール状態を比較する、効率的で忠実な評価プロセスを採用する。
論文参考訳（メタデータ） (2024-06-17T19:33:08Z)
AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents [5.044046039265116]
私たちは、20の現実世界のAndroidアプリに116のプログラムタスクに対して報酬信号を提供する、完全に機能するAndroid環境であるAndroidWorldを紹介します。静的テストセットを提供する既存のインタラクティブ環境とは異なり、AndroidWorldはパラメータ化され自然言語で表現されるタスクを動的に構築する。私たちの最高のエージェントは、AndroidWorldのタスクの30.6%を完了できます。
論文参考訳（メタデータ） (2024-05-23T13:48:54Z)
OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [87.41051677852231]
マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。 OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
論文参考訳（メタデータ） (2024-04-11T17:56:05Z)
Executable Code Actions Elicit Better LLM Agents [76.95566120678787]
この研究は、Pythonコードを使用して、Large Language Model(LLM)エージェントのアクションを統一されたアクション空間(CodeAct)に統合することを提案する。 Pythonインタプリタと統合されたCodeActは、コードアクションを実行し、事前アクションを動的に修正したり、マルチターンインタラクションを通じて新しい観察に新しいアクションを発行することができる。 CodeActのパフォーマンス向上は、解釈可能なコードを実行し、自然言語を使ってユーザとコラボレーションすることで、環境と対話するオープンソースのLLMエージェントを構築する動機となります。
論文参考訳（メタデータ） (2024-02-01T21:38:58Z)
WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文参考訳（メタデータ） (2023-07-25T22:59:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。