論文の概要: Gym-Anything: Turn any Software into an Agent Environment
- arxiv url: http://arxiv.org/abs/2604.06126v1
- Date: Tue, 07 Apr 2026 17:38:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.967698
- Title: Gym-Anything: Turn any Software into an Agent Environment
- Title(参考訳): Gym-Anything: どんなソフトウェアでもエージェント環境に変える
- Authors: Pranjal Aggarwal, Graham Neubig, Sean Welleck,
- Abstract要約: Gym-Anythingは、あらゆるソフトウェアをインタラクティブなコンピュータ利用環境に変換するためのフレームワークである。
CUA-Worldは、医学、天文学、工学、エンタープライズシステムなど、領域にまたがる10万以上の長期的タスクのコレクションである。
- 参考スコア(独自算出の注目度): 67.2443447990221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-use agents hold the promise of assisting in a wide range of digital economic activities. However, current research has largely focused on short-horizon tasks over a limited set of software with limited economic value, such as basic e-commerce and OS-configuration tasks. A key reason is that creating environments for complex software requires significant time and human effort, and therefore does not scale. To address this, we introduce Gym-Anything, a framework for converting any software into an interactive computer-use environment. We frame environment creation itself as a multi-agent task: a coding agent writes setup scripts, downloads real-world data, and configures the software, while producing evidence of correct setup. An independent audit agent then verifies evidence for the environment setup against a quality checklist. Using a taxonomy of economically valuable occupations grounded in U.S. GDP data, we apply this pipeline to 200 software applications with broad occupational coverage. The result is CUA-World, a collection of over 10K long-horizon tasks spanning domains from medical science and astronomy to engineering and enterprise systems, each configured with realistic data along with train and test splits. CUA-World also includes CUA-World-Long, a challenging long-horizon benchmark with tasks often requiring over 500 steps, far exceeding existing benchmarks. Distilling successful trajectories from the training split into a 2B vision-language model outperforms models 2$\times$ its size. We also apply the same auditing principle at test time: a separate VLM reviews completed trajectories and provides feedback on what remains, improving Gemini-3-Flash on CUA-World-Long from 11.5% to 14.0%. We release all code, infrastructure, and benchmark data to facilitate future research in realistic computer-use agents.
- Abstract(参考訳): コンピュータ利用エージェントは、幅広いデジタル経済活動を支援することを約束している。
しかしながら、現在の研究は、基本的なeコマースやOS設定タスクなど、限られた経済価値のソフトウェアセットに対する短期的なタスクに主に焦点を当てている。
重要な理由は、複雑なソフトウェアのための環境を作るのにかなりの時間と人的労力を必要とするため、スケールしないからです。
そこで我々は,任意のソフトウェアをインタラクティブなコンピュータ利用環境に変換するフレームワークであるGym-Anythingを紹介した。
コーディングエージェントはセットアップスクリプトを書き、実際のデータをダウンロードし、ソフトウェアを構成し、正しいセットアップの証拠を生成します。
独立監査エージェントは、品質チェックリストに対する環境設定の証拠を検証する。
米国GDPデータに基づく経済的に価値のある職業の分類を用いて、このパイプラインを、広い職業範囲を持つ200のソフトウェアアプリケーションに適用する。
CUA-Worldは、医学や天文学から工学やエンタープライズシステムまで、ドメインにまたがる10万以上の長期的タスクのコレクションで、それぞれがリアルなデータと、列車とテストの分割で構成されている。
CUA-WorldにはCUA-World-Longも含まれている。CUA-World-Longは、既存のベンチマークをはるかに上回る500ステップ以上のタスクを必要とする、困難なロングホライゾンベンチマークである。
トレーニングで成功した軌跡を希釈すると、2B視覚言語モデルが2$\times$そのサイズより優れている。
また、テスト時にも同じ監査原則を適用します: 別々のVLMレビューが完了した軌跡をレビューし、残りについてフィードバックを提供し、CUA-World-Long上のGemini-3-Flashを11.5%から14.0%に改善します。
我々は、現実的なコンピュータ利用エージェントにおける将来の研究を促進するために、すべてのコード、インフラストラクチャ、ベンチマークデータを公開します。
関連論文リスト
- GUI-360$^\circ$: A Comprehensive Dataset and Benchmark for Computer-Using Agents [59.107657859025586]
GUI-360$circ$は、コンピュータ利用エージェント(CUA)を進化させるために設計された大規模で包括的なデータセットとベンチマークスイートである。
リリースされたコーパスには、人気のあるWindowsオフィスアプリケーションにおける数千のトラジェクトリにわたる1.2万以上の実行されたアクションステップが含まれている。
このデータセットは、3つの標準タスク、GUIグラウンド、スクリーン解析、アクション予測、ハイブリッドGUI+APIアクションスペースをサポートする。
論文 参考訳(メタデータ) (2025-11-06T12:19:02Z) - The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution [86.4588675093384]
Toolathlonは、多様なアプリやツール、現実的な環境設定、信頼性の高い実行ベースの評価を提供する言語エージェントのベンチマークである。
このベンチマークには、手動でソースまたはクラフトされたタスクが108つ含まれており、平均20回以上にわたって複数のアプリと対話する必要がある。
Toolathlonは、より有能な言語エージェントを現実の長期タスク実行のために開発することを期待しています。
論文 参考訳(メタデータ) (2025-10-29T17:32:49Z) - Programming with Pixels: Can Computer-Use Agents do Software Engineering? [24.011063667060792]
$textttProgramming with Pixels$ (PwP)は、ソフトウェアエンジニアリングのための初めての総合的なコンピュータ利用環境である。
PwPは、一般のコンピュータ利用エージェントがスペシャリストレベルのパフォーマンスに達するかどうかをベンチマークするための自然なドメインとしてソフトウェア工学を確立している。
論文 参考訳(メタデータ) (2025-02-24T18:41:33Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - Towards Lightweight Data Integration using Multi-workflow Provenance and
Data Observability [0.2517763905487249]
統合データ分析は、特に現在のAI時代において、科学的発見において重要な役割を果たす。
軽量ランタイム向けマルチワークフロー統合データ分析手法MIDAを提案する。
Summitスーパーコンピュータの1,680個のCPUコア上で,最大10000のタスクを実行するほぼゼロのオーバーヘッドを示す。
論文 参考訳(メタデータ) (2023-08-17T14:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。