Fugu-MT 論文翻訳(概要): Programming with Pixels: Can Computer-Use Agents do Software Engineering?

論文の概要: Programming with Pixels: Can Computer-Use Agents do Software Engineering?

arxiv url: http://arxiv.org/abs/2502.18525v2
Date: Fri, 03 Oct 2025 02:09:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-06 14:21:29.696716
Title: Programming with Pixels: Can Computer-Use Agents do Software Engineering?
Title（参考訳）: Pixelを使ったプログラミング: コンピュータ利用エージェントはソフトウェアエンジニアリングができるか?
Authors: Pranjal Aggarwal, Sean Welleck,
Abstract要約: $textttProgramming with Pixels$ (PwP)は、ソフトウェアエンジニアリングのための初めての総合的なコンピュータ利用環境である。 PwPは、一般のコンピュータ利用エージェントがスペシャリストレベルのパフォーマンスに達するかどうかをベンチマークするための自然なドメインとしてソフトウェア工学を確立している。
参考スコア（独自算出の注目度）: 24.011063667060792
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Computer-use agents (CUAs) hold the promise of performing a wide variety of general tasks, but current evaluations have primarily focused on simple scenarios. It therefore remains unclear whether such generalist agents can automate more sophisticated and specialized work such as software engineering (SWE). To investigate this, we introduce $\texttt{Programming with Pixels}$ (PwP), the first comprehensive computer-use environment for software engineering, where agents visually control an IDE to perform diverse software engineering tasks. To enable holistic evaluation, we also introduce \texttt{PwP-Bench}, a benchmark of 15 existing and new software-engineering tasks spanning multiple modalities, programming languages, and skillsets. We perform an extensive evaluation of state-of-the-art open-weight and closed-weight CUAs and find that when interacting purely visually, they perform significantly worse than specialized coding agents. However, when the same CUAs are given direct access to just two APIs-file editing and bash operations-performance jumps, often reaching the levels of specialized agents despite having a task-agnostic design. Furthermore, when given access to additional IDE tools via text APIs, all models show further gains. Our analysis shows that current CUAs fall short mainly due to limited visual grounding and the inability to take full advantage of the rich environment, leaving clear room for future improvements.PwP establishes software engineering as a natural domain for benchmarking whether generalist computer-use agents can reach specialist-level performance on sophisticated tasks. Code and data released at https://programmingwithpixels.com
Abstract（参考訳）: コンピュータ利用エージェント(CUA)は、様々な一般的なタスクを実行するという約束を持っているが、現在の評価は主に単純なシナリオに焦点を当てている。したがって、そのようなジェネラリストエージェントがソフトウェア工学(SWE)のようなより洗練された専門的な作業を自動化することができるかどうかは不明である。これを調べるために,ソフトウェア工学における初の総合的なコンピュータ利用環境である$\texttt{Programming with Pixels}$ (PwP)を紹介した。また,複数のモダリティ,プログラム言語,スキルセットにまたがる15のソフトウェアエンジニアリングタスクのベンチマークである‘texttt{PwP-Bench} も導入した。我々は最先端のオープンウェイトおよびクローズドウェイトCUAを広範囲に評価し、純粋に視覚的に相互作用する場合には、特殊な符号化エージェントよりも大幅に低下することを示した。しかし、同じCUAが2つのAPIファイルの編集とbash操作のパフォーマンス向上に直接アクセスできる場合、タスクに依存しない設計にもかかわらず、しばしば特別なエージェントのレベルに達する。さらに、テキストAPI経由で追加のIDEツールにアクセスすると、すべてのモデルはさらに向上する。我々の分析によると、現在のCUAは、主に視覚的基盤が限られており、豊かな環境をフルに活用できないため、将来の改善のための明確な余地が残っており、PwPはソフトウェア工学を、汎用的なコンピュータ利用エージェントが高度なタスクにおいて専門家レベルのパフォーマンスに到達できるかどうかをベンチマークするための自然なドメインとして確立している。 https://mingwithpixels.comでリリースされたコードとデータ

関連論文リスト

Computer-Using World Model [58.59112582915026]
我々は,次のユーザインタフェース(UI)状態を予測するデスクトップソフトウェアのための世界モデルであるComputer-Using World Model (CUWM)を紹介する。 CUWMはまずエージェント関連状態変化のテキスト記述を予測し、次に次のスクリーンショットを合成するために視覚的にこれらの変化を実現する。テスト時間動作探索を用いてCUWMを評価し、凍結エージェントが世界モデルを用いて実行前の候補動作をシミュレートし比較する。
論文参考訳（メタデータ） (2026-02-19T13:48:29Z)
IDE-Bench: Evaluating Large Language Models as IDE Agents on Real-World Software Engineering Tasks [0.37823923040445995]
我々は、生の端末実行を超えるDocker化されたテストハーネスを提示します。検索、構造化ファイル編集、フルスタックアプリケーションのテストツールに高レベルの抽象化を提供する。
論文参考訳（メタデータ） (2026-01-28T02:06:37Z)
ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文参考訳（メタデータ） (2026-01-16T08:23:52Z)
Computer-Use Agents as Judges for Generative User Interface [142.75272102498806]
ComputerUse Agents (CUA) は、グラフィカルユーザインタフェース (GUI) を通じてデジタル環境を自律的に操作する能力が高まっている。ほとんどのGUIは、人間が効率的にタスクを実行するのに不要な人間指向の動作を採用するために設計されている。 CUA は Coder でGUI の自動設計を支援することができるだろうか?
論文参考訳（メタデータ） (2025-11-19T16:00:02Z)
Unified Software Engineering agent as AI Software Engineer [14.733475669942276]
大規模言語モデル(LLM)技術は、自動コーディングに対する期待を高めた。本稿では,統一ソフトウェア工学エージェントやUSEagentを開発することによって,この問題を理解することを目的とする。私たちはUSEagentを、AIと人間の両方を含む将来のソフトウェア開発チームのチームメンバーになる、将来のAIソフトウェアエンジニアの最初のドラフトとして考えています。
論文参考訳（メタデータ） (2025-06-17T16:19:13Z)
Coding Agents with Multimodal Browsing are Generalist Problem Solvers [48.938445118630284]
OpenHands-Versaは、控えめな多くの汎用ツールで構築された汎用AIエージェントである。既存の最先端マルチエージェントシステムは、ターゲットドメインを超えて一般化できないことを示す。
論文参考訳（メタデータ） (2025-06-03T15:50:55Z)
ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [54.52092001110694]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたベンチマークである。 ThinkGeoは、ツール-インタラクションのパラダイムにインスパイアされたもので、さまざまな現実世界のアプリケーションにまたがる人間のクエリを含んでいる。分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文参考訳（メタデータ） (2025-05-29T17:59:38Z)
InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction [35.285466934451904]
本稿では,マルチモーダル方式でコンピュータと対話できる汎用エージェントであるtextscInfantAgent-Nextを紹介する。ひとつの大きなモデルに複雑に構築するか、モジュール性のみを提供する既存のアプローチとは異なり、当社のエージェントはツールベースと純粋な視覚エージェントを統合しています。
論文参考訳（メタデータ） (2025-05-16T05:43:27Z)
LLM Agents Making Agent Tools [2.5529148902034637]
ツールの使用は、大規模言語モデル(LLM)を、複雑なマルチステップタスクを実行できる強力なエージェントに変えた。論文をコードで自律的にLLM互換のツールに変換する新しいエージェントフレームワークであるToolMakerを提案する。タスク記述とリポジトリURLが短いので、ToolMakerは必要な依存関係を自律的にインストールし、タスクを実行するコードを生成する。
論文参考訳（メタデータ） (2025-02-17T11:44:11Z)
RepoGraph: Enhancing AI Software Engineering with Repository-level Code Graph [63.87660059104077]
RepoGraphは、現代のAIソフトウェアエンジニアリングソリューションのためのリポジトリレベルの構造を管理するプラグインモジュールである。 RepoGraphはすべてのシステムのパフォーマンスを大幅に向上させ、オープンソースフレームワークの間で新たな最先端技術を生み出している。
論文参考訳（メタデータ） (2024-10-03T05:45:26Z)
MetaTool: Facilitating Large Language Models to Master Tools with Meta-task Augmentation [25.360660222418183]
再利用可能なツールセットにまたがって一般化するために設計された,新しいツール学習手法であるMetaToolを紹介する。メタタスクデータをタスク指向トレーニングに組み込むことで,オープンソースの大規模言語モデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2024-07-15T10:15:41Z)
Agentless: Demystifying LLM-based Software Engineering Agents [12.19683999553113]
Agentless - ソフトウェア開発の問題を自動解決するためのエージェントレスアプローチです。 Agentlessはエージェントベースのアプローチの冗長で複雑な設定と比較すると、ローカライゼーション、修復、パッチ検証の3フェーズプロセスをシンプルに採用している。人気の高いSWE-bench Liteベンチマークの結果から、Agentlessは驚くほど高いパフォーマンスと低コストを達成できることがわかった。
論文参考訳（メタデータ） (2024-07-01T17:24:45Z)
CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。 AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文参考訳（メタデータ） (2024-06-11T05:21:20Z)
Morescient GAI for Software Engineering (Extended Version) [2.4861619769660637]
我々は,オープンサイエンスの原則に従って,GAIモデルを設計し,発展し,普及させる方法について,ビジョンとロードマップを提示する。
論文参考訳（メタデータ） (2024-06-07T07:38:33Z)
SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。 SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文参考訳（メタデータ） (2024-05-06T17:41:33Z)
OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [87.41051677852231]
マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。 OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
論文参考訳（メタデータ） (2024-04-11T17:56:05Z)
AgentStudio: A Toolkit for Building General Virtual Agents [57.02375267926862]
一般的な仮想エージェントは、マルチモーダルな観察、複雑なアクション空間のマスター、動的でオープンなドメイン環境における自己改善を扱う必要がある。 AgentStudioは、非常に汎用的な観察とアクション空間を備えた軽量でインタラクティブな環境を提供する。オンラインベンチマークタスクの作成、GUI要素の注釈付け、ビデオ内のアクションのラベル付けといったツールを統合する。環境とツールに基づいて、GUIインタラクションと関数呼び出しの両方を効率的な自動評価でベンチマークするオンラインタスクスイートをキュレートします。
論文参考訳（メタデータ） (2024-03-26T17:54:15Z)
What Are Tools Anyway? A Survey from the Language Model Perspective [67.18843218893416]
言語モデル(LM)は強力だが、主にテキスト生成タスクに向いている。 LMが使用する外部プログラムとしてツールを統一的に定義する。各種ツールの効率を実証的に検討した。
論文参考訳（メタデータ） (2024-03-18T17:20:07Z)
ScreenAgent: A Vision Language Model-driven Computer Control Agent [17.11085071288194]
視覚言語モデル(VLM)エージェントが実際のコンピュータ画面と対話する環境を構築する。この環境では、エージェントは、マウスとキーボードのアクションを出力することで、スクリーンショットを観察し、GUI(Graphics User Interface)を操作することができる。そこで,ScreenAgentデータセットを構築し,様々なコンピュータタスクの完了時にスクリーンショットとアクションシーケンスを収集する。
論文参考訳（メタデータ） (2024-02-09T02:33:45Z)
Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。 UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文参考訳（メタデータ） (2024-01-30T16:52:56Z)
ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文参考訳（メタデータ） (2023-10-26T21:57:21Z)
WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文参考訳（メタデータ） (2023-07-25T22:59:32Z)
ART: Automatic multi-step reasoning and tool-use for large language models [105.57550426609396]
大規模言語モデル(LLM)は、数秒とゼロショットの設定で複雑な推論を行うことができる。各推論ステップは、コアLLM機能を超えて計算をサポートする外部ツールに依存することができる。プログラムとして中間推論ステップを自動生成するために凍結LDMを使用するフレームワークであるART(Automatic Reasoning and Tool-use)を導入する。
論文参考訳（メタデータ） (2023-03-16T01:04:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。