論文の概要: CodeMonkeys: Scaling Test-Time Compute for Software Engineering
- arxiv url: http://arxiv.org/abs/2501.14723v2
- Date: Mon, 03 Feb 2025 18:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:04:07.916839
- Title: CodeMonkeys: Scaling Test-Time Compute for Software Engineering
- Title(参考訳): CodeMonkeys: ソフトウェアエンジニアリングのためのテスト時間計算のスケーリング
- Authors: Ryan Ehrlich, Bradley Brown, Jordan Juravsky, Ronald Clark, Christopher Ré, Azalia Mirhoseini,
- Abstract要約: テスト時間計算のスケーリングは、LLM機能を改善するための有望な軸である。
ここでは、SWE-benchデータセットから現実のGitHub問題を解決するという文脈で、この問題について検討する。
CodeMonkeysという名前の私たちのシステムは、ドラフト編集と同時にテストスクリプトを共同で生成して実行することで、モデルを反復的に編集することができる。
- 参考スコア(独自算出の注目度): 45.84513832258217
- License:
- Abstract: Scaling test-time compute is a promising axis for improving LLM capabilities. However, test-time compute can be scaled in a variety of ways, and effectively combining different approaches remains an active area of research. Here, we explore this problem in the context of solving real-world GitHub issues from the SWE-bench dataset. Our system, named CodeMonkeys, allows models to iteratively edit a codebase by jointly generating and running a testing script alongside their draft edit. We sample many of these multi-turn trajectories for every issue to generate a collection of candidate edits. This approach lets us scale "serial" test-time compute by increasing the number of iterations per trajectory and "parallel" test-time compute by increasing the number of trajectories per problem. With parallel scaling, we can amortize up-front costs across multiple downstream samples, allowing us to identify relevant codebase context using the simple method of letting an LLM read every file. In order to select between candidate edits, we combine voting using model-generated tests with a final multi-turn trajectory dedicated to selection. Overall, CodeMonkeys resolves 57.4% of issues from SWE-bench Verified using a budget of approximately 2300 USD. Our selection method can also be used to combine candidates from different sources. Selecting over an ensemble of edits from existing top SWE-bench Verified submissions obtains a score of 66.2% and outperforms the best member of the ensemble on its own. We fully release our code and data at https://scalingintelligence.stanford.edu/pubs/codemonkeys.
- Abstract(参考訳): テスト時間計算のスケーリングは、LLM機能を改善するための有望な軸である。
しかし、テスト時間計算は様々な方法でスケールでき、様々なアプローチを効果的に組み合わせることが研究の活発な領域である。
ここでは、SWE-benchデータセットから現実のGitHub問題を解決するという文脈で、この問題について検討する。
CodeMonkeysという名前の私たちのシステムは、ドラフト編集と同時にテストスクリプトを共同で生成して実行することで、モデルを反復的にコードベースの編集を可能にします。
我々はこれらの多ターントラジェクトリの多くを各問題に対してサンプリングし、候補編集のコレクションを生成する。
このアプローチにより、トラジェクトリ毎の繰り返し数を増やし、問題毎のトラジェクトリ数を増大させることで、"シリアル"テストタイム計算をスケールできる。
並列スケーリングにより、複数のダウンストリームサンプルをまたいだ事前コストを減らし、LLMがすべてのファイルを読み取る簡単な方法を使用して、関連するコードベースコンテキストを特定できます。
候補編集を選別するために、モデル生成テストを用いた投票と、選択専用の最終マルチターン軌跡を組み合わせる。
全体として、CodeMonkeysはSWE-benchの57.4%の問題を約2300USDの予算で解決している。
我々の選択法は、異なるソースからの候補を組み合わせるためにも利用できる。
既存のトップSWE-bench Verifiedからの編集のアンサンブルを選択すると、66.2%のスコアが得られ、アンサンブルの最高のメンバーを単独で上回っている。
コードとデータはhttps://scalingintelligence.stanford.edu/pubs/codemonkeysで完全にリリースしています。
関連論文リスト
- Steering Large Language Models between Code Execution and Textual Reasoning [22.279107036500083]
テキスト推論は、数学、論理学、最適化、探索における課題を伴うタスクの解決に固有の制限がある。
最近リリースされたOpenAI GPT Code InterpreterとAutoGenのようなマルチエージェントフレームワークは、コード生成と実行を統合するのに顕著な能力を示している。
LLMのコード/テキスト生成を良くし、顕著な改善を実現するための3つの方法を提案する。
論文 参考訳(メタデータ) (2024-10-04T15:44:47Z) - Generating Unseen Code Tests In Infinitum [1.0674604700001968]
本稿では,プログラミングタスクやプログラミング言語にまたがって一般化するベンチマークのバリエーションを作成する手法を提案する。
我々は、Pythonでテキストからコードを生成するタスクに対して、textitauto-regressionと呼ばれる1つのベンチマークを実装した。
論文 参考訳(メタデータ) (2024-07-29T08:11:20Z) - Long Code Arena: a Set of Benchmarks for Long-Context Code Models [75.70507534322336]
Long Code Arenaは、プロジェクト全体のコンテキストを必要とするコード処理タスクのための6つのベンチマークスイートである。
これらのタスクは、ライブラリベースのコード生成、CIビルドの修復、プロジェクトレベルのコード補完、コミットメッセージ生成、バグローカライゼーション、モジュールの要約といった、コード処理のさまざまな側面をカバーする。
各タスクに対して、テスト用の手作業によるデータセット、評価スイート、オープンソースのベースラインソリューションを提供しています。
論文 参考訳(メタデータ) (2024-06-17T14:58:29Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - VerMCTS: Synthesizing Multi-Step Programs using a Verifier, a Large Language Model, and Tree Search [5.389248707675898]
大型言語モデル(LLM)は有用なコードを生成することができるが、しばしばそれらが生成するコードは信頼できない。
本稿では,Dafny と Coq で検証プログラムを生成することで,この問題を解決するための VerMCTS を提案する。
論文 参考訳(メタデータ) (2024-02-13T00:55:14Z) - Distributed Collapsed Gibbs Sampler for Dirichlet Process Mixture Models
in Federated Learning [0.22499166814992444]
本稿では,DPMM (DisCGS) のための分散マルコフ連鎖モンテカルロ (MCMC) 推論手法を提案する。
我々のアプローチでは、崩壊したGibbsサンプルラーを使用し、独立マシンと異種マシンの分散データを扱うように設計されています。
例えば、100Kのデータポイントのデータセットでは、中央集権的なアルゴリズムは100回のイテレーションを完了するのに約12時間かかります。
論文 参考訳(メタデータ) (2023-12-18T13:16:18Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning
and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。
コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。
実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文 参考訳(メタデータ) (2023-05-19T17:49:25Z) - Memory-Based Optimization Methods for Model-Agnostic Meta-Learning and
Personalized Federated Learning [56.17603785248675]
モデルに依存しないメタラーニング (MAML) が人気のある研究分野となっている。
既存のMAMLアルゴリズムは、イテレーション毎にメタモデルを更新するためにいくつかのタスクとデータポイントをサンプリングすることで、エピソードのアイデアに依存している。
本稿では,MAMLのメモリベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-09T08:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。