論文の概要: AutoTest: Evolutionary Code Solution Selection with Test Cases
- arxiv url: http://arxiv.org/abs/2408.12125v1
- Date: Thu, 22 Aug 2024 04:38:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 15:03:23.187622
- Title: AutoTest: Evolutionary Code Solution Selection with Test Cases
- Title(参考訳): AutoTest: テストケースによる進化的コードソリューションの選択
- Authors: Zhihua Duan, Jialin Wang,
- Abstract要約: 本研究では,自動テストケース生成とコードソリューション実行を組み合わせた新しい手法であるAutoTestを提案する。
HumanEvalデータセットは164のプログラミング問題で構成されており、AutoTestはpass@1スコアでベースラインメソッドよりも約10%改善されている。
- 参考スコア(独自算出の注目度): 1.4582633500696451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of code generation techniques, selecting the correct code solution from multiple candidate solutions has become a crucial task. This study proposes AutoTest, a novel technique that combines automated test case generation with code solution execution to optimize the selection process using an evolutionary genetic algorithm. Firstly, AutoTest utilizes large pre-trained language models such as codegen-16B, code-davinci-002, and incoder-6B to provide code solutions and their corresponding test cases. Then, by executing the code solutions and evaluating their performance on the test cases, a consensus set is formed. Fine-grained ranking is achieved through the selection, mutation, and crossover mechanisms based on the evolutionary genetic algorithm, with the adjustment of alpha and beta parameters. Finally, the best code solution is chosen. AutoTest demonstrates significant performance improvements on the HumanEval benchmark test. The HumanEval dataset consists of 164 programming problems, and AutoTest achieves approximately a 10% improvement over the baseline method in terms of pass@1 score.
- Abstract(参考訳): コード生成技術の開発により、複数の候補ソリューションから正しいコードソリューションを選択することが重要な課題となっている。
本研究では,自動テストケース生成とコードソリューション実行を組み合わせた新しい手法であるAutoTestを提案し,進化的遺伝的アルゴリズムを用いて選択プロセスを最適化する。
まず、AutoTestはCodegen-16B、Code-davinci-002、incoder-6Bといった、トレーニング済みの大規模な言語モデルを使用して、コードソリューションと対応するテストケースを提供する。
そして、コードソリューションを実行し、テストケース上でのパフォーマンスを評価することにより、コンセンサスセットを形成する。
微粒なランク付けは、進化的遺伝的アルゴリズムに基づく選択、突然変異、交叉機構によって達成され、アルファパラメータとベータパラメータの調整が行われる。
最後に、最良のコードソリューションが選択されます。
AutoTestはHumanEvalベンチマークテストで大幅なパフォーマンス向上を示している。
HumanEvalデータセットは164のプログラミング問題で構成されており、AutoTestはpass@1スコアでベースラインメソッドよりも約10%改善されている。
関連論文リスト
- CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文 参考訳(メタデータ) (2024-10-08T01:36:15Z) - TestGenEval: A Real World Unit Test Generation and Test Completion Benchmark [24.14654309612826]
TestGenEvalは、1,210のコードから68,647のテストと、11の保守されたPythonリポジトリにまたがるテストファイルペアで構成されている。
初期テストのオーサリング、テストスイートの補完、コードカバレッジの改善をカバーしている。
パラメータは7Bから405Bまで様々である。
論文 参考訳(メタデータ) (2024-10-01T14:47:05Z) - B4: Towards Optimal Assessment of Plausible Code Solutions with Plausible Tests [16.19318541132026]
ベイズフレームワーク内では、解と試験の間の観測された通過状態の後続確率に基づいて最適な選択戦略が定義されることを示す。
本稿では,この最適(計算不可能な)戦略を近似するための効率的な手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T10:22:08Z) - SWT-Bench: Testing and Validating Real-World Bug-Fixes with Code Agents [10.730852617039451]
ユーザ問題をテストケースに形式化するLLMベースのコードエージェントについて検討する。
我々は人気のあるGitHubリポジトリに基づいた新しいベンチマークを提案し、現実世界の問題、地味なバグフィックス、ゴールデンテストを含む。
コード修復用に設計されたコードエージェントは,テスト生成用に設計されたシステムの性能を上回っている。
論文 参考訳(メタデータ) (2024-06-18T14:54:37Z) - V-STaR: Training Verifiers for Self-Taught Reasoners [71.53113558733227]
V-STaR はモデル生成解の正しさを判断する DPO を用いて検証器を訓練する。
複数のイテレーションでV-STaRを実行すると、徐々により良い推論器と検証器が得られる。
論文 参考訳(メタデータ) (2024-02-09T15:02:56Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Test-Time Training with Masked Autoencoders [54.983147122777574]
テストタイムトレーニングは、セルフスーパービジョンを使用して各テスト入力のモデルを最適化することで、新しいテスト分布をオンザフライに適用する。
本稿では,この一サンプル学習問題に対してマスク付きオートエンコーダを用いる。
論文 参考訳(メタデータ) (2022-09-15T17:59:34Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z) - Unit Test Case Generation with Transformers and Focal Context [10.220204860586582]
AthenaTestは、現実世界の焦点メソッドと開発者が記述したテストケースから学習することで、単体テストケースを生成することを目的としている。
我々は,Javaにおける単体テストケースメソッドとそれに対応する焦点メソッドの並列コーパスとして最大規模で公開されているMethods2Testを紹介する。
AthenaTestを5つの欠陥4jプロジェクトで評価し、30回の試行で焦点メソッドの43.7%をカバーする25Kパステストケースを生成した。
論文 参考訳(メタデータ) (2020-09-11T18:57:36Z) - Bloom Origami Assays: Practical Group Testing [90.2899558237778]
グループテストは、いくつかの魅力的なソリューションでよく研究されている問題である。
近年の生物学的研究は、従来の方法と相容れない新型コロナウイルスの実践的な制約を課している。
我々は,Bloomフィルタと信条伝搬を組み合わせた新しい手法を開発し,n(100以上)の大きい値に拡張し,良好な経験的結果を得る。
論文 参考訳(メタデータ) (2020-07-21T19:31:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。