Fugu-MT 論文翻訳(概要): Beyond pip install: Evaluating LLM Agents for the Automated Installation of Python Projects

論文の概要: Beyond pip install: Evaluating LLM Agents for the Automated Installation of Python Projects

arxiv url: http://arxiv.org/abs/2412.06294v1
Date: Mon, 09 Dec 2024 08:37:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:44.284226
Title: Beyond pip install: Evaluating LLM Agents for the Automated Installation of Python Projects
Title（参考訳）: pipインストールを超えて: Pythonプロジェクトの自動化インストールのためのLLMエージェントの評価
Authors: Louis Milliken, Sungmin Kang, Shin Yoo,
Abstract要約: 大規模言語モデル(LLM)ベースのエージェントは、リポジトリレベルのタスクを実行するために提案されている。他のレポジトリをインストールすることでプロジェクトレベルの依存性をフルフィルする、という重要なタスクがひとつ欠けている、と私たちは主張しています。我々は,40のオープンソースPythonプロジェクトから収集したリポジトリインストールタスクのベンチマークを紹介する。実験の結果、調査対象のリポジトリの55%は、エージェントによって10回のうち少なくとも1回は自動的にインストールできることがわかった。
参考スコア（独自算出の注目度）: 11.418182511485032
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Many works have recently proposed the use of Large Language Model (LLM) based agents for performing `repository level' tasks, loosely defined as a set of tasks whose scopes are greater than a single file. This has led to speculation that the orchestration of these repository-level tasks could lead to software engineering agents capable of performing almost independently of human intervention. However, of the suite of tasks that would need to be performed by this autonomous software engineering agent, we argue that one important task is missing, which is to fulfil project level dependency by installing other repositories. To investigate the feasibility of this repository level installation task, we introduce a benchmark of of repository installation tasks curated from 40 open source Python projects, which includes a ground truth installation process for each target repository. Further, we propose Installamatic, an agent which aims to perform and verify the installation of a given repository by searching for relevant instructions from documentation in the repository. Empirical experiments reveal that that 55% of the studied repositories can be automatically installed by our agent at least one out of ten times. Through further analysis, we identify the common causes for our agent's inability to install a repository, discuss the challenges faced in the design and implementation of such an agent and consider the implications that such an agent could have for developers.
Abstract（参考訳）: 多くの研究が最近、"リポジトリレベル"タスクを実行するためにLLM(Large Language Model)ベースのエージェントを提案しており、スコープが単一のファイルよりも大きいタスクのセットとして緩やかに定義されている。これにより、リポジトリレベルのタスクのオーケストレーションが、人間の介入とほぼ独立して実行できるソフトウェアエンジニアリングエージェントに繋がるのではないか、という憶測が持ち上がっている。しかしながら、この自律的なソフトウェアエンジニアリングエージェントが実行する必要のある一連のタスクのうち、ひとつの重要なタスクが欠落しており、それは他のリポジトリをインストールすることでプロジェクトレベルの依存性をフルフィルすることである、と私たちは主張します。このリポジトリレベルのインストールタスクの実現可能性を検討するため、40のオープンソースPythonプロジェクトからキュレートされたリポジトリインストールタスクのベンチマークを紹介します。 Installamaticは、リポジトリ内のドキュメントから関連する命令を検索することで、所定のリポジトリのインストールを実行し、検証することを目的としたエージェントである。実験の結果,研究対象のリポジトリの55%が,少なくとも10回に1回は自動インストール可能であることがわかった。さらなる分析を通じて,リポジトリをインストールできないエージェントの共通原因を特定し,そのようなエージェントの設計と実装において直面する課題について議論し,そのようなエージェントが開発者に与える影響を考察する。

関連論文リスト

OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use [101.57043903478257]
アイアンマンの架空のJ.A.R.V.I.Sほど有能で多用途なAIアシスタントを作る夢は、長い間想像力に恵まれてきた。マルチモーダル(multi-modal)な大きな言語モデル((M)LLMs)の進化により、この夢は現実に近づいている。本調査は,OSエージェント研究の現状を整理し,学術調査と産業開発の両方の指針を提供する。
論文参考訳（メタデータ） (2025-08-06T14:33:45Z)
SetupBench: Assessing Software Engineering Agents' Ability to Bootstrap Development Environments [2.184775414778289]
環境ブートストラップスキルを分離するベンチマークである setupbench を導入する。私たちのタスクは7つの言語エコシステム、5つのデータベースエンジン、マルチサービスオーケストレーションシナリオにまたがっています。特にリポジトリのセットアップ(38.9-57.4%)とローカルデータベースの設定(20.0-53.3%)に課題がある。
論文参考訳（メタデータ） (2025-07-11T22:45:07Z)
ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [54.52092001110694]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたベンチマークである。 ThinkGeoは、ツール-インタラクションのパラダイムにインスパイアされたもので、さまざまな現実世界のアプリケーションにまたがる人間のクエリを含んでいる。分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文参考訳（メタデータ） (2025-05-29T17:59:38Z)
RepoMaster: Autonomous Exploration and Understanding of GitHub Repositories for Complex Task Solving [9.477917878478188]
RepoMasterは、複雑なタスクを解決するためにGitHubリポジトリを探索、再利用するために設計された、自律的なエージェントフレームワークである。 RepoMasterは関数呼び出しグラフ、モジュール依存グラフ、階層的なコードツリーを構築し、必須コンポーネントを特定する。新たにリリースしたGitTaskBenchでは、RepoMasterがタスクパス率を24.1%から62.9%に引き上げ、トークン使用率を95%削減しました。
論文参考訳（メタデータ） (2025-05-27T08:35:05Z)
EnvBench: A Benchmark for Automated Environment Setup [76.02998475135824]
大規模言語モデルにより、研究者はソフトウェア工学領域における実用的なリポジトリレベルのタスクに集中できるようになった。環境設定に関する既存の研究は革新的なエージェント戦略を導入しているが、その評価は小さなデータセットに基づいていることが多い。このギャップに対処するため、包括的環境設定ベンチマークEnvBenchを紹介します。
論文参考訳（メタデータ） (2025-03-18T17:19:12Z)
Automated Benchmark Generation for Repository-Level Coding Tasks [7.305342793164905]
SetUpAgentは、歴史的に正確な依存性の設定、テスト実行、結果解析が可能な完全に自動化されたシステムである。 i)SWEE-Benchは数百のリポジトリを含むSWE-Benchの拡張バージョンで、ii)SWA-Benchはライブラリではなくアプリケーションに焦点を当てたベンチマークです。
論文参考訳（メタデータ） (2025-03-10T17:42:49Z)
LLM Agents Making Agent Tools [2.5529148902034637]
ツールの使用は、大規模言語モデル(LLM)を、複雑なマルチステップタスクを実行できる強力なエージェントに変えた。論文をコードで自律的にLLM互換のツールに変換する新しいエージェントフレームワークであるToolMakerを提案する。タスク記述とリポジトリURLが短いので、ToolMakerは必要な依存関係を自律的にインストールし、タスクを実行するコードを生成する。
論文参考訳（メタデータ） (2025-02-17T11:44:11Z)
HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at Scale [12.173834895070827]
大規模言語モデル(LLM)がソフトウェア工学(SE)に革命をもたらした最近の進歩にもかかわらず、これらのシステムは一般的に特定のSE関数用に設計されている。我々は,多種多様なSEタスクに対処するために設計された,革新的な汎用マルチエージェントシステムHyperAgentを紹介する。
論文参考訳（メタデータ） (2024-09-09T19:35:34Z)
Agentless: Demystifying LLM-based Software Engineering Agents [12.19683999553113]
Agentless - ソフトウェア開発の問題を自動解決するためのエージェントレスアプローチです。 Agentlessはエージェントベースのアプローチの冗長で複雑な設定と比較すると、ローカライゼーション、修復、パッチ検証の3フェーズプロセスをシンプルに採用している。人気の高いSWE-bench Liteベンチマークの結果から、Agentlessは驚くほど高いパフォーマンスと低コストを達成できることがわかった。
論文参考訳（メタデータ） (2024-07-01T17:24:45Z)
How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文参考訳（メタデータ） (2024-06-03T15:20:06Z)
SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。 SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文参考訳（メタデータ） (2024-05-06T17:41:33Z)
AgentScope: A Flexible yet Robust Multi-Agent Platform [66.64116117163755]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。豊富な構文ツール、組み込みエージェントとサービス機能、アプリケーションのデモとユーティリティモニタのためのユーザフレンドリなインターフェース、ゼロコードプログラミングワークステーション、自動プロンプトチューニング機構により、開発とデプロイメントの両方の障壁は大幅に低下した。
論文参考訳（メタデータ） (2024-02-21T04:11:28Z)
GitAgent: Facilitating Autonomous Agent with GitHub by Tool Extension [81.44231422624055]
さまざまなタスクを実行できる外部ツールを備えた大規模言語モデル(LLM)に焦点が当てられている。本稿では,GitHubから自動ツール拡張を実現するエージェントであるGitAgentを紹介する。
論文参考訳（メタデータ） (2023-12-28T15:47:30Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
A Zero-Shot Language Agent for Computer Control with Structured Reflection [19.526676887048662]
大規模言語モデル(LLM)は、ライブコンピュータ環境での高レベルな目標の計画と実行能力の向上を示している。タスクを実行するために、最近の作業は、しばしば、教師付き学習または少数/多発的なプロンプトを通じてタスクのトレース例から学習するモデルを必要とする。我々は、与えられた専門家のトレースを必要としないゼロショットエージェントでこの問題にアプローチする。
論文参考訳（メタデータ） (2023-10-12T21:53:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。