論文の概要: Repo2Run: Automated Building Executable Environment for Code Repository at Scale
- arxiv url: http://arxiv.org/abs/2502.13681v3
- Date: Fri, 30 May 2025 06:25:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 15:03:34.050506
- Title: Repo2Run: Automated Building Executable Environment for Code Repository at Scale
- Title(参考訳): Repo2Run: 大規模コードリポジトリのための自動ビルド実行環境
- Authors: Ruida Hu, Chao Peng, Xinchen Wang, Junjielong Xu, Cuiyun Gao,
- Abstract要約: 大規模なリポジトリに対して実行可能なテスト環境の構築を自動化するためのエージェントであるRepo2Runを紹介します。
Repo2RunはDockerイメージを反復的にビルドし、建物のフィードバックに基づいてユニットテストを実行し、Dockerfileを合成する。
結果のDockerfileを使用して、コードとテストを実行するDockerコンテナ環境を作成することができる。
- 参考スコア(独自算出の注目度): 8.795746370609855
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scaling up executable code data is significant for improving language models' software engineering capability. The intricate nature of the process makes it labor-intensive, time-consuming and expert-knowledge-dependent to build a large number of executable code repositories, limiting the scalability of existing work based on running tests. The primary bottleneck lies in the automated building of test environments for different repositories, which is an essential yet underexplored task. To mitigate the gap, we introduce Repo2Run, the first LLM-based agent aiming at automating the building of executable test environments for any repositories at scale. Specifically, given a code repository, Repo2Run iteratively builds the Docker image, runs unit tests based on the feedback of the building, and synthesizes the Dockerfile until the entire pipeline is executed successfully. The resulting Dockerfile can then be used to create Docker container environments for running code and tests. We created a benchmark containing 420 Python repositories with unit tests for evaluation. The results illustrate that Repo2Run achieves an 86.0% success rate, outperforming SWE-agent by 77.0%. The resources of Repo2Run are available at https://github.com/bytedance/Repo2Run.
- Abstract(参考訳): 実行可能なコードデータのスケールアップは、言語モデルのソフトウェアエンジニアリング能力を改善する上で重要である。
プロセスの複雑な性質は、多くの実行可能なコードリポジトリを構築するために、労働集約的で、時間がかかり、専門家による知識に依存し、テスト実行による既存の作業のスケーラビリティを制限します。
主なボトルネックは、さまざまなリポジトリのためのテスト環境の自動構築にある。
このギャップを軽減するために、大規模なリポジトリに対して実行可能なテスト環境の構築を自動化することを目的とした、最初のLLMベースのエージェントであるRepo2Runを紹介します。
具体的には、コードリポジトリが与えられた場合、Repo2RunはDockerイメージを反復的にビルドし、ビルドのフィードバックに基づいてユニットテストを実行し、パイプライン全体が正常に実行されるまでDockerfileを合成する。
結果のDockerfileを使用して、コードとテストを実行するDockerコンテナ環境を作成することができる。
評価のためのユニットテストを備えた420のPythonリポジトリを含むベンチマークを作成しました。
その結果、Repo2Runは86.0%の成功率に達し、SWEエージェントを77.0%上回る結果となった。
Repo2Runのリソースはhttps://github.com/bytedance/Repo2Runで入手できる。
関連論文リスト
- SWE-Flow: Synthesizing Software Engineering Data in a Test-Driven Manner [53.54568352375669]
テスト駆動開発(TDD)に基づく新しいデータ合成フレームワーク**SWE-Flow*を紹介します。
人為的な問題に依存する既存のソフトウェアエンジニアリングデータとは異なり、**SWE-Flow*は、単体テストから直接インクリメンタルな開発ステップを推論する。
私たちは現実のGitHubプロジェクトから16,061のトレーニングインスタンスと2,020のテストインスタンスを生成し、**SWE-Flow-Eval**ベンチマークを作成しました。
論文 参考訳(メタデータ) (2025-06-10T17:23:33Z) - Compendium Manager: a tool for coordination of workflow management instances for bulk data processing in Python [0.0]
Compendium ManagerはPythonで書かれたコマンドラインツールで、バイオインフォマティクスパイプラインのプロビジョニング、起動、評価を自動化する。
プロジェクトのリストを通じて進捗を計測し、結果を共有データベースにロードし、後の評価と評価のための詳細な処理メトリクスを記録する。
論文 参考訳(メタデータ) (2025-05-16T15:49:40Z) - Doctor: Optimizing Container Rebuild Efficiency by Instruction Re-Orchestration [11.027705516378875]
命令の再注文によってDockerfileのビルド効率を改善する方法であるDoctorを提案する。
我々はDockerfileの構文に基づく依存性分類と、頻繁に修正される命令を優先順位付けするための履歴修正分析を開発した。
実験の結果、Doctorは92.75%のDockerfileを改善し、ビルド時間を平均26.5%削減し、ファイルの12.82%が50%以上削減された。
論文 参考訳(メタデータ) (2025-04-02T13:53:35Z) - EnvBench: A Benchmark for Automated Environment Setup [76.02998475135824]
大規模言語モデルにより、研究者はソフトウェア工学領域における実用的なリポジトリレベルのタスクに集中できるようになった。
環境設定に関する既存の研究は革新的なエージェント戦略を導入しているが、その評価は小さなデータセットに基づいていることが多い。
このギャップに対処するため、包括的環境設定ベンチマークEnvBenchを紹介します。
論文 参考訳(メタデータ) (2025-03-18T17:19:12Z) - Automated Benchmark Generation for Repository-Level Coding Tasks [7.305342793164905]
SetUpAgentは、歴史的に正確な依存性の設定、テスト実行、結果解析が可能な完全に自動化されたシステムである。
i)SWEE-Benchは数百のリポジトリを含むSWE-Benchの拡張バージョンで、ii)SWA-Benchはライブラリではなくアプリケーションに焦点を当てたベンチマークです。
論文 参考訳(メタデータ) (2025-03-10T17:42:49Z) - RepoST: Scalable Repository-Level Coding Environment Construction with Sandbox Testing [35.68087697258125]
RepoSTは、トレーニングと評価の両方のために、リポジトリレベルのコード生成に対して実行フィードバックを提供する。
RepoST-Trainは,832リポジトリから7,415の関数を備えた,大規模なトレインセットである。
また、評価データセット、RepoST-Eval、ベンチマーク12のコード生成モデルも構築しています。
論文 参考訳(メタデータ) (2025-03-10T14:16:08Z) - Refactoring for Dockerfile Quality: A Dive into Developer Practices and Automation Potential [0.0]
本稿では,358のオープンソースプロジェクトの600fileを使用したDockerfileの自動化の有用性と実用性について検討する。
提案手法では,画像サイズが平均32%減少し,ビルド期間が6%減少し,77%,91%の症例で理解性と保守性が向上した。
論文 参考訳(メタデータ) (2025-01-23T23:10:47Z) - ExecRepoBench: Multi-level Executable Code Completion Evaluation [45.963424627710765]
本稿では,リポジトリレベルのベンチマークであるExecRepoBenchの作成を通じて,ソフトウェア開発におけるコード補完を強化する新しいフレームワークを紹介する。
本稿では,抽象構文木をベースとした多段階文法ベースの補完手法を提案し,様々な論理単位のコードフラグメントをマスキングする。
次に,Repo-Instruct の 7B パラメータでオープンソースの LLM を微調整し,強力なコード補完ベースラインモデル Qwen2.5-Coder-Instruct-C を生成する。
論文 参考訳(メタデータ) (2024-12-16T17:14:35Z) - Beyond pip install: Evaluating LLM Agents for the Automated Installation of Python Projects [11.418182511485032]
大規模言語モデル(LLM)ベースのエージェントは、リポジトリレベルのタスクを実行するために提案されている。
他のレポジトリをインストールすることでプロジェクトレベルの依存性をフルフィルする、という重要なタスクがひとつ欠けている、と私たちは主張しています。
我々は,40のオープンソースPythonプロジェクトから収集したリポジトリインストールタスクのベンチマークを紹介する。
実験の結果、調査対象のリポジトリの55%は、エージェントによって10回のうち少なくとも1回は自動的にインストールできることがわかった。
論文 参考訳(メタデータ) (2024-12-09T08:37:06Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - Arbitrarily Scalable Environment Generators via Neural Cellular Automata [55.150593161240444]
NCA環境ジェネレータは, 環境サイズに関わらず, 整合性, 規則化されたパターンを維持可能であることを示す。
提案手法は,類似したパターンを持つ大規模環境に対して,単エージェント強化学習ポリシーを任意に拡張する。
論文 参考訳(メタデータ) (2023-10-28T07:30:09Z) - L2MAC: Large Language Model Automatic Computer for Extensive Code Generation [52.81694565226513]
トランスフォーマーベースの大規模言語モデル(LLM)は、基盤となるトランスフォーマーアーキテクチャの固定コンテキストウィンドウによって制約される。
本稿では,L2MACを提案する。L2MACは,LLMをベースとした汎用型自動計算機(von Neumann Architecture)フレームワークで,長期的かつ一貫した出力生成を実現する。
論文 参考訳(メタデータ) (2023-10-02T16:55:19Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - EnvPool: A Highly Parallel Reinforcement Learning Environment Execution
Engine [69.47822647770542]
並列環境の実行はシステム全体の最も遅い部分であるが、ほとんど注意を払わない。
RL環境の並列化設計により,RL環境シミュレーションの高速化を実現した。
ハイエンドマシンでは、Atari環境での環境実行で毎秒100万フレーム、MuJoCo環境では毎秒300万フレームを達成する。
論文 参考訳(メタデータ) (2022-06-21T17:36:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。