Fugu-MT 論文翻訳(概要): Programming with Pixels: Computer-Use Meets Software Engineering

論文の概要: Programming with Pixels: Computer-Use Meets Software Engineering

arxiv url: http://arxiv.org/abs/2502.18525v1
Date: Mon, 24 Feb 2025 18:41:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-27 17:39:51.129679
Title: Programming with Pixels: Computer-Use Meets Software Engineering
Title（参考訳）: Pixelを使ったプログラミング: コンピュータユースとソフトウェア工学
Authors: Pranjal Aggarwal, Sean Welleck,
Abstract要約: 汎用コンピュータ利用エージェントは、ハンドエンジニアリングツールを必要とせずに、様々なSWEタスクで特殊なツールベースのエージェントに近づいたり、超えたりすることができる。ソフトウェアエンジニアリングエージェントの次の波を構築し評価するためのスケーラブルなテストベッドとしてPwPを確立した。
参考スコア（独自算出の注目度）: 24.00640679767529
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in software engineering (SWE) agents have largely followed a $\textit{tool-based paradigm}$, where agents interact with hand-engineered tool APIs to perform specific tasks. While effective for specialized tasks, these methods fundamentally lack generalization, as they require predefined tools for each task and do not scale across programming languages and domains. We introduce $\texttt{Programming with Pixels}$ (PwP), an agent environment that unifies software development tasks by enabling $\textit{computer-use agents}$-agents that operate directly within an IDE through visual perception, typing, and clicking, rather than relying on predefined tool APIs. To systematically evaluate these agents, we propose $\texttt{PwP-Bench}$, a benchmark that unifies existing SWE benchmarks spanning tasks across multiple programming languages, modalities, and domains under a task-agnostic state and action space. Our experiments demonstrate that general-purpose computer-use agents can approach or even surpass specialized tool-based agents on a variety of SWE tasks without the need for hand-engineered tools. However, our analysis shows that current models suffer from limited visual grounding and fail to exploit many IDE tools that could simplify their tasks. When agents can directly access IDE tools, without visual interaction, they show significant performance improvements, highlighting the untapped potential of leveraging built-in IDE capabilities. Our results establish PwP as a scalable testbed for building and evaluating the next wave of software engineering agents. We release code and data at https://programmingwithpixels.com
Abstract（参考訳）: ソフトウェアエンジニアリング(SWE)エージェントの最近の進歩は、エージェントが手作業で特定のタスクを実行するためのツールAPIと対話する、$\textit{tool-based paradigm}$に大きく追随している。専門的なタスクには有効であるが、これらのメソッドは、各タスクに事前に定義されたツールを必要とし、プログラミング言語やドメインをまたいでスケールしないため、基本的には一般化を欠いている。これは、事前に定義されたツールAPIに頼るのではなく、視覚的知覚、タイピング、クリックを通じてIDE内で直接動作する$\textit{computer-use Agent}$-agentsを有効にすることで、ソフトウェア開発タスクを統一するエージェント環境です。これらのエージェントを体系的に評価するために、複数のプログラミング言語、モダリティ、ドメインにまたがる既存のSWEベンチマークをタスクに依存しない状態とアクション空間下で統一するベンチマークである$\textt{PwP-Bench}$を提案する。本実験は, 汎用コンピュータ利用エージェントが, ハンドエンジニアリングツールを必要とせずに, 様々なSWEタスクにおいて, 特殊なツールベースエージェントにアプローチしたり, 追い越したりできることを示した。しかし、我々の分析によると、現在のモデルは視覚的な接地が限られており、タスクを単純化できる多くのIDEツールを活用できない。エージェントが視覚的な相互作用なしにIDEツールに直接アクセスできる場合、それらは大きなパフォーマンス改善を示し、組み込みIDE機能を活用する未完成の可能性を強調している。ソフトウェアエンジニアリングエージェントの次の波を構築し評価するためのスケーラブルなテストベッドとしてPwPを確立した。コードとデータはhttps://mingwithpixels.comで公開しています。

関連論文リスト

Computer-Using World Model [58.59112582915026]
我々は,次のユーザインタフェース(UI)状態を予測するデスクトップソフトウェアのための世界モデルであるComputer-Using World Model (CUWM)を紹介する。 CUWMはまずエージェント関連状態変化のテキスト記述を予測し、次に次のスクリーンショットを合成するために視覚的にこれらの変化を実現する。テスト時間動作探索を用いてCUWMを評価し、凍結エージェントが世界モデルを用いて実行前の候補動作をシミュレートし比較する。
論文参考訳（メタデータ） (2026-02-19T13:48:29Z)
IDE-Bench: Evaluating Large Language Models as IDE Agents on Real-World Software Engineering Tasks [0.37823923040445995]
我々は、生の端末実行を超えるDocker化されたテストハーネスを提示します。検索、構造化ファイル編集、フルスタックアプリケーションのテストツールに高レベルの抽象化を提供する。
論文参考訳（メタデータ） (2026-01-28T02:06:37Z)
ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文参考訳（メタデータ） (2026-01-16T08:23:52Z)
Computer-Use Agents as Judges for Generative User Interface [142.75272102498806]
ComputerUse Agents (CUA) は、グラフィカルユーザインタフェース (GUI) を通じてデジタル環境を自律的に操作する能力が高まっている。ほとんどのGUIは、人間が効率的にタスクを実行するのに不要な人間指向の動作を採用するために設計されている。 CUA は Coder でGUI の自動設計を支援することができるだろうか?
論文参考訳（メタデータ） (2025-11-19T16:00:02Z)
Unified Software Engineering agent as AI Software Engineer [14.733475669942276]
大規模言語モデル(LLM)技術は、自動コーディングに対する期待を高めた。本稿では,統一ソフトウェア工学エージェントやUSEagentを開発することによって,この問題を理解することを目的とする。私たちはUSEagentを、AIと人間の両方を含む将来のソフトウェア開発チームのチームメンバーになる、将来のAIソフトウェアエンジニアの最初のドラフトとして考えています。
論文参考訳（メタデータ） (2025-06-17T16:19:13Z)
Coding Agents with Multimodal Browsing are Generalist Problem Solvers [48.938445118630284]
OpenHands-Versaは、控えめな多くの汎用ツールで構築された汎用AIエージェントである。既存の最先端マルチエージェントシステムは、ターゲットドメインを超えて一般化できないことを示す。
論文参考訳（メタデータ） (2025-06-03T15:50:55Z)
ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [54.52092001110694]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたベンチマークである。 ThinkGeoは、ツール-インタラクションのパラダイムにインスパイアされたもので、さまざまな現実世界のアプリケーションにまたがる人間のクエリを含んでいる。分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文参考訳（メタデータ） (2025-05-29T17:59:38Z)
InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction [35.285466934451904]
本稿では,マルチモーダル方式でコンピュータと対話できる汎用エージェントであるtextscInfantAgent-Nextを紹介する。ひとつの大きなモデルに複雑に構築するか、モジュール性のみを提供する既存のアプローチとは異なり、当社のエージェントはツールベースと純粋な視覚エージェントを統合しています。
論文参考訳（メタデータ） (2025-05-16T05:43:27Z)
LLM Agents Making Agent Tools [2.5529148902034637]
ツールの使用は、大規模言語モデル(LLM)を、複雑なマルチステップタスクを実行できる強力なエージェントに変えた。論文をコードで自律的にLLM互換のツールに変換する新しいエージェントフレームワークであるToolMakerを提案する。タスク記述とリポジトリURLが短いので、ToolMakerは必要な依存関係を自律的にインストールし、タスクを実行するコードを生成する。
論文参考訳（メタデータ） (2025-02-17T11:44:11Z)
RepoGraph: Enhancing AI Software Engineering with Repository-level Code Graph [63.87660059104077]
RepoGraphは、現代のAIソフトウェアエンジニアリングソリューションのためのリポジトリレベルの構造を管理するプラグインモジュールである。 RepoGraphはすべてのシステムのパフォーマンスを大幅に向上させ、オープンソースフレームワークの間で新たな最先端技術を生み出している。
論文参考訳（メタデータ） (2024-10-03T05:45:26Z)
MetaTool: Facilitating Large Language Models to Master Tools with Meta-task Augmentation [25.360660222418183]
再利用可能なツールセットにまたがって一般化するために設計された,新しいツール学習手法であるMetaToolを紹介する。メタタスクデータをタスク指向トレーニングに組み込むことで,オープンソースの大規模言語モデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2024-07-15T10:15:41Z)
Agentless: Demystifying LLM-based Software Engineering Agents [12.19683999553113]
Agentless - ソフトウェア開発の問題を自動解決するためのエージェントレスアプローチです。 Agentlessはエージェントベースのアプローチの冗長で複雑な設定と比較すると、ローカライゼーション、修復、パッチ検証の3フェーズプロセスをシンプルに採用している。人気の高いSWE-bench Liteベンチマークの結果から、Agentlessは驚くほど高いパフォーマンスと低コストを達成できることがわかった。
論文参考訳（メタデータ） (2024-07-01T17:24:45Z)
CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。 AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文参考訳（メタデータ） (2024-06-11T05:21:20Z)
Morescient GAI for Software Engineering (Extended Version) [2.4861619769660637]
我々は,オープンサイエンスの原則に従って,GAIモデルを設計し,発展し,普及させる方法について,ビジョンとロードマップを提示する。
論文参考訳（メタデータ） (2024-06-07T07:38:33Z)
SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。 SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文参考訳（メタデータ） (2024-05-06T17:41:33Z)
OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [87.41051677852231]
マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。 OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
論文参考訳（メタデータ） (2024-04-11T17:56:05Z)
AgentStudio: A Toolkit for Building General Virtual Agents [57.02375267926862]
一般的な仮想エージェントは、マルチモーダルな観察、複雑なアクション空間のマスター、動的でオープンなドメイン環境における自己改善を扱う必要がある。 AgentStudioは、非常に汎用的な観察とアクション空間を備えた軽量でインタラクティブな環境を提供する。オンラインベンチマークタスクの作成、GUI要素の注釈付け、ビデオ内のアクションのラベル付けといったツールを統合する。環境とツールに基づいて、GUIインタラクションと関数呼び出しの両方を効率的な自動評価でベンチマークするオンラインタスクスイートをキュレートします。
論文参考訳（メタデータ） (2024-03-26T17:54:15Z)
What Are Tools Anyway? A Survey from the Language Model Perspective [67.18843218893416]
言語モデル(LM)は強力だが、主にテキスト生成タスクに向いている。 LMが使用する外部プログラムとしてツールを統一的に定義する。各種ツールの効率を実証的に検討した。
論文参考訳（メタデータ） (2024-03-18T17:20:07Z)
ScreenAgent: A Vision Language Model-driven Computer Control Agent [17.11085071288194]
視覚言語モデル(VLM)エージェントが実際のコンピュータ画面と対話する環境を構築する。この環境では、エージェントは、マウスとキーボードのアクションを出力することで、スクリーンショットを観察し、GUI(Graphics User Interface)を操作することができる。そこで,ScreenAgentデータセットを構築し,様々なコンピュータタスクの完了時にスクリーンショットとアクションシーケンスを収集する。
論文参考訳（メタデータ） (2024-02-09T02:33:45Z)
Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。 UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文参考訳（メタデータ） (2024-01-30T16:52:56Z)
ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文参考訳（メタデータ） (2023-10-26T21:57:21Z)
WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文参考訳（メタデータ） (2023-07-25T22:59:32Z)
ART: Automatic multi-step reasoning and tool-use for large language models [105.57550426609396]
大規模言語モデル(LLM)は、数秒とゼロショットの設定で複雑な推論を行うことができる。各推論ステップは、コアLLM機能を超えて計算をサポートする外部ツールに依存することができる。プログラムとして中間推論ステップを自動生成するために凍結LDMを使用するフレームワークであるART(Automatic Reasoning and Tool-use)を導入する。
論文参考訳（メタデータ） (2023-03-16T01:04:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。