Fugu-MT 論文翻訳(概要): RepoST: Scalable Repository-Level Coding Environment Construction with Sandbox Testing

論文の概要: RepoST: Scalable Repository-Level Coding Environment Construction with Sandbox Testing

arxiv url: http://arxiv.org/abs/2503.07358v1
Date: Mon, 10 Mar 2025 14:16:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:44.955558
Title: RepoST: Scalable Repository-Level Coding Environment Construction with Sandbox Testing
Title（参考訳）: RepoST: Sandboxテストによるスケーラブルなリポジトリレベルコーディング環境の構築
Authors: Yiqing Xie, Alex Xie, Divyanshu Sheth, Pengfei Liu, Daniel Fried, Carolyn Rose,
Abstract要約: RepoSTは、トレーニングと評価の両方のために、リポジトリレベルのコード生成に対して実行フィードバックを提供する。 RepoST-Trainは,832リポジトリから7,415の関数を備えた,大規模なトレインセットである。また、評価データセット、RepoST-Eval、ベンチマーク12のコード生成モデルも構築しています。
参考スコア（独自算出の注目度）: 35.68087697258125
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present RepoST, a scalable method to construct environments that provide execution feedback for repository-level code generation for both training and evaluation. Unlike existing works that aim to build entire repositories for execution, which is challenging for both human and LLMs, we provide execution feedback with sandbox testing, which isolates a given target function and its dependencies to a separate script for testing. Sandbox testing reduces the complexity of external dependencies and enables constructing environments at a large scale. We use our method to construct RepoST-Train, a large-scale train set with 7,415 functions from 832 repositories. Training with the execution feedback provided by RepoST-Train leads to a performance gain of 5.5% Pass@1 on HumanEval and 3.5% Pass@1 on RepoEval. We also build an evaluation dataset, RepoST-Eval, and benchmark 12 code generation models.
Abstract（参考訳）: 本稿では,レポジトリレベルのコード生成に対して,トレーニングと評価の両方に実行フィードバックを提供する,スケーラブルな環境構築手法であるRepoSTを提案する。人間とLLMの両方にとって難しい、実行用のリポジトリ全体を構築することを目的とした既存の作業とは異なり、サンドボックステストで実行フィードバックを提供し、特定のターゲット関数とその依存関係をテスト用の別のスクリプトに分離します。 Sandboxテストは、外部依存関係の複雑さを低減し、大規模な環境構築を可能にする。 832リポジトリから7,415の関数を持つ大規模列車セットであるRepoST-Trainを構築した。 RepoST-Trainによる実行フィードバックによるトレーニングは、HumanEvalでは5.5% Pass@1、RepoEvalでは3.5% Pass@1のパフォーマンス向上につながる。また、評価データセット、RepoST-Eval、ベンチマーク12のコード生成モデルも構築しています。

関連論文リスト

SWE-Factory: Your Automated Factory for Issue Resolution Training Data and Evaluation Benchmarks [34.8513098099929]
SWE-Factoryは、大規模なGitHubイシュー解決データセットを作成するために設計された、自動パイプラインである。 SWE-Builderは評価環境構築を自動化するマルチエージェントシステムである。出口符号に基づくグルーピングは手動検査に比べて100%精度が向上する。
論文参考訳（メタデータ） (2025-06-12T17:54:17Z)
EnvBench: A Benchmark for Automated Environment Setup [76.02998475135824]
大規模言語モデルにより、研究者はソフトウェア工学領域における実用的なリポジトリレベルのタスクに集中できるようになった。環境設定に関する既存の研究は革新的なエージェント戦略を導入しているが、その評価は小さなデータセットに基づいていることが多い。このギャップに対処するため、包括的環境設定ベンチマークEnvBenchを紹介します。
論文参考訳（メタデータ） (2025-03-18T17:19:12Z)
Repo2Run: Automated Building Executable Environment for Code Repository at Scale [8.795746370609855]
大規模なリポジトリに対して実行可能なテスト環境の構築を自動化するためのエージェントであるRepo2Runを紹介します。 Repo2RunはDockerイメージを反復的にビルドし、建物のフィードバックに基づいてユニットテストを実行し、Dockerfileを合成する。結果のDockerfileを使用して、コードとテストを実行するDockerコンテナ環境を作成することができる。
論文参考訳（メタデータ） (2025-02-19T12:51:35Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文参考訳（メタデータ） (2025-02-12T21:42:56Z)
DI-BENCH: Benchmarking Large Language Models on Dependency Inference with Testable Repositories at Scale [39.92722886613929]
DI-BENCHは、大規模言語モデルの依存性推論能力を評価するために設計された、大規模なベンチマークおよび評価フレームワークである。ベンチマークでは、Python、C#、Rust、JavaScriptにまたがるテスト環境を備えた581のリポジトリが提供されている。テキストと実行ベースのメトリクスによる大規模な実験により、現在の最高のパフォーマンスモデルは42.9%の実行パス率しか達成していないことが明らかになった。
論文参考訳（メタデータ） (2025-01-23T14:27:11Z)
Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。 Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文参考訳（メタデータ） (2024-12-02T18:11:30Z)
On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文参考訳（メタデータ） (2024-06-17T10:45:22Z)
Re-ReST: Reflection-Reinforced Self-Training for Language Agents [101.22559705696885]
言語エージェントにおける自己学習は、エージェント自体から監督を生成することができる。リフレクション強化自己学習(Reflection-Reinforced Self-Training, Re-ReST)は, テキストレフレクタを用いて低品質な試料を精製する。
論文参考訳（メタデータ） (2024-06-03T16:21:38Z)
Class-Level Code Generation from Natural Language Using Iterative, Tool-Enhanced Reasoning over Repository [4.767858874370881]
実世界のリポジトリ内でクラスレベルのコードを生成する際に,LLMを厳格に評価するためのベンチマークであるRepoClassBenchを紹介する。 RepoClassBenchには、リポジトリの選択からJava、Python、C#にまたがる"Natural Language to Class Generation"タスクが含まれている。 Retrieve-Repotools-Reflect (RRR)は,レポジトリレベルのコンテキストを反復的にナビゲートし,推論する静的解析ツールを備えた新しいアプローチである。
論文参考訳（メタデータ） (2024-04-22T03:52:54Z)
RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文参考訳（メタデータ） (2023-03-22T13:54:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。