論文の概要: ProgramBench: Can Language Models Rebuild Programs From Scratch?
- arxiv url: http://arxiv.org/abs/2605.03546v1
- Date: Tue, 05 May 2026 09:17:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.867673
- Title: ProgramBench: Can Language Models Rebuild Programs From Scratch?
- Title(参考訳): ProgramBench: 言語モデルはプログラムをスクラッチから再構築できるか?
- Authors: John Yang, Kilian Lieret, Jeffrey Ma, Parth Thakkar, Dmitrii Pedchenko, Sten Sootla, Emily McMilin, Pengcheng Yin, Rui Hou, Gabriel Synnaeve, Diyi Yang, Ofir Press,
- Abstract要約: ProgramBenchは、ソフトウェアエンジニアリングエージェントがソフトウェアをホリシックに開発する能力を測定する。
エンドツーエンドの動作テストはエージェント駆動ファジィによって生成される。
モデルは、人間が書いたコードと大きく異なるモノリシックでシングルファイルの実装を好む。
- 参考スコア(独自算出の注目度): 59.40748183470308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Turning ideas into full software projects from scratch has become a popular use case for language models. Agents are being deployed to seed, maintain, and grow codebases over extended periods with minimal human oversight. Such settings require models to make high-level software architecture decisions. However, existing benchmarks measure focused, limited tasks such as fixing a single bug or developing a single, specified feature. We therefore introduce ProgramBench to measure the ability of software engineering agents to develop software holisitically. In ProgramBench, given only a program and its documentation, agents must architect and implement a codebase that matches the reference executable's behavior. End-to-end behavioral tests are generated via agent-driven fuzzing, enabling evaluation without prescribing implementation structure. Our 200 tasks range from compact CLI tools to widely used software such as FFmpeg, SQLite, and the PHP interpreter. We evaluate 9 LMs and find that none fully resolve any task, with the best model passing 95\% of tests on only 3\% of tasks. Models favor monolithic, single-file implementations that diverge sharply from human-written code.
- Abstract(参考訳): アイデアをスクラッチから完全なソフトウェアプロジェクトに転換することは、言語モデルの一般的なユースケースとなっている。
エージェントは、最小限の人の監視で、長期にわたってコードベースのシード、メンテナンス、成長にデプロイされている。
このような設定では、高レベルのソフトウェアアーキテクチャ決定を行うモデルが必要です。
しかし、既存のベンチマークは、単一のバグの修正や単一の特定の機能の開発など、焦点を絞った限られたタスクを計測する。
そこで我々はProgramBenchを導入し、ソフトウェアエンジニアリングエージェントがソフトウェアをホリシックに開発する能力を測定する。
ProgramBenchでは、プログラムとそのドキュメントだけを前提として、エージェントは参照実行ファイルの振る舞いにマッチするコードベースを設計し、実装しなければならない。
エンドツーエンドの動作テストはエージェント駆動ファジィにより生成され、実装構造を規定せずに評価が可能である。
私たちの200タスクは、コンパクトCLIツールからFFmpeg、SQLite、PHPインタプリタといった広く使われているソフトウェアまで様々です。
私たちは9つのLMを評価し、どのタスクも完全に解決せず、最高のモデルはたったの3倍のタスクで95%のテストをパスします。
モデルは、人間が書いたコードと大きく異なるモノリシックでシングルファイルの実装を好む。
関連論文リスト
- OmniCode: A Benchmark for Evaluating Software Engineering Agents [12.63309178506706]
OmniCodeは、現実世界のソフトウェア開発のための新しいソフトウェアエンジニアリングベンチマークである。
3つのプログラミング言語(Python、Java、C++)にまたがる1794のタスクと、バグ修正、テスト生成、コードレビュー修正、スタイル修正の4つの主要なカテゴリを含んでいる。
我々は、SWE-Agentのような人気のあるエージェントフレームワークでOmniCodeを評価し、Pythonのバグ修正でうまく機能するが、テスト生成のようなタスクやC++やJavaのような言語では不足していることを示す。
論文 参考訳(メタデータ) (2026-02-02T16:04:10Z) - ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases [58.411135609139855]
タスク完了のための「ショートカット」は、大規模言語モデルの信頼性評価と展開に重大なリスクをもたらす。
我々は,LLMエージェントがテストケースを利用するための正当性を測定するベンチマークフレームワークであるImpossibleBenchを紹介する。
実践的なフレームワークとして、ImpossibleBenchは単なる評価ではなく、汎用的なツールである。
論文 参考訳(メタデータ) (2025-10-23T06:58:32Z) - Programming with Pixels: Can Computer-Use Agents do Software Engineering? [24.011063667060792]
$textttProgramming with Pixels$ (PwP)は、ソフトウェアエンジニアリングのための初めての総合的なコンピュータ利用環境である。
PwPは、一般のコンピュータ利用エージェントがスペシャリストレベルのパフォーマンスに達するかどうかをベンチマークするための自然なドメインとしてソフトウェア工学を確立している。
論文 参考訳(メタデータ) (2025-02-24T18:41:33Z) - NExT: Teaching Large Language Models to Reason about Code Execution [50.93581376646064]
大規模言語モデル(LLM)のコードは通常、プログラムの表面テキスト形式に基づいて訓練される。
NExTは,プログラムの実行トレースを検査し,実行時の動作を判断する手法である。
論文 参考訳(メタデータ) (2024-04-23T01:46:32Z) - A Static Evaluation of Code Completion by Large Language Models [65.18008807383816]
単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,実行ベースベンチマークが提案されている。
プログラムを実行せずにエラーを検出するlinterのような静的解析ツールは、コード生成モデルを評価するために十分に研究されていない。
抽象構文木を利用して,Pythonのコード補完における静的エラーを定量化する静的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-05T19:23:34Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。