論文の概要: Fully Autonomous Programming with Large Language Models
- arxiv url: http://arxiv.org/abs/2304.10423v1
- Date: Thu, 20 Apr 2023 16:12:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 12:38:05.494380
- Title: Fully Autonomous Programming with Large Language Models
- Title(参考訳): 大規模言語モデルによる完全自律プログラミング
- Authors: Vadim Liventsev and Anastasiia Grishina and Aki H\"arm\"a and Leon
Moonen
- Abstract要約: LLM(Large Language Models)を用いたプログラム合成への最近のアプローチは、"ニアミスシンドローム"を示す。
我々は、LLMとプログラム合成ベンチマーク2としてOpenAI Codexを使用し、問題記述と評価のためのテストのデータベースとして使用します。
結果として生じるフレームワークは、修復フェーズなしでのCodexの従来の使用法と、従来の遺伝的プログラミングアプローチの両方を上回ります。
- 参考スコア(独自算出の注目度): 0.9558392439655015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current approaches to program synthesis with Large Language Models (LLMs)
exhibit a "near miss syndrome": they tend to generate programs that
semantically resemble the correct answer (as measured by text similarity
metrics or human evaluation), but achieve a low or even zero accuracy as
measured by unit tests due to small imperfections, such as the wrong input or
output format. This calls for an approach known as Synthesize, Execute, Debug
(SED), whereby a draft of the solution is generated first, followed by a
program repair phase addressing the failed tests. To effectively apply this
approach to instruction-driven LLMs, one needs to determine which prompts
perform best as instructions for LLMs, as well as strike a balance between
repairing unsuccessful programs and replacing them with newly generated ones.
We explore these trade-offs empirically, comparing replace-focused,
repair-focused, and hybrid debug strategies, as well as different
template-based and model-based prompt-generation techniques. We use OpenAI
Codex as the LLM and Program Synthesis Benchmark 2 as a database of problem
descriptions and tests for evaluation. The resulting framework outperforms both
conventional usage of Codex without the repair phase and traditional genetic
programming approaches.
- Abstract(参考訳): 現在、Large Language Models (LLMs) によるプログラム合成のアプローチでは、正しい解法にセマンティックに類似したプログラムを生成する傾向があり(テキスト類似度測定や人的評価によって測定される)、間違った入力や出力フォーマットのような小さな欠陥によって単体テストによって測定されるような低またはゼロの精度を達成する。
これにより、最初にソリューションのドラフトを生成し、その後に失敗したテストに対処するプログラム修復フェーズを生成する、synthetic、execute、debug(sed)と呼ばれるアプローチが要求される。
この手法を命令駆動型LLMに効果的に適用するには、どのプロンプトがLLMの命令として最適かを判断し、失敗したプログラムを修復して新たに生成されたプログラムに置き換えるバランスをとる必要がある。
これらのトレードオフを経験的に検討し、代替、修復、ハイブリッドなデバッグ戦略と、テンプレートベースおよびモデルベースのプロンプトジェネレーション手法を比較した。
我々は,openai codexをllmおよびプログラム合成ベンチマーク2として,問題記述と評価テストのデータベースとして使用する。
結果として得られたフレームワークは、修復フェーズなしでのcodexの従来の使用と、従来の遺伝的プログラミングアプローチを上回っている。
関連論文リスト
- Code-Aware Prompting: A study of Coverage Guided Test Generation in
Regression Setting using LLM [34.07127332725332]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
我々のアプローチは、事前訓練されたLLMが、追加の訓練をすることなく、より完全なテストケースを生成することを可能にする。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z) - PPM: Automated Generation of Diverse Programming Problems for
Benchmarking Code Generation Models [10.491051578439722]
本稿では,PPM(Programling problem merging)の概念を提案し,この概念の2つの実装を提供し,このツールを広く利用されている2つのデータセット上で活用する。
その結果、より困難で多様な、そして自然なプログラミング問題を生み出す上で、我々のツールの有効性が示された。
論文 参考訳(メタデータ) (2024-01-28T02:27:38Z) - The Consensus Game: Language Model Generation via Equilibrium Search [73.51411916625032]
言語モデル復号のための学習不要なゲーム理論を新たに導入する。
本手法では,正規化不完全情報シーケンシャルシグナリングゲームとして,言語モデルの復号化を行う。
EQUILIBRium-RANKINGをLLaMA-7Bに適用すると、より大型のLLaMA-65BとPaLM-540Bより優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-13T14:27:21Z) - ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle
Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。
我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。
実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-24T00:10:15Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - FixEval: Execution-based Evaluation of Program Fixes for Programming
Problems [23.987104440395576]
FixEvalは、競合するプログラミング問題とそれに対応する修正に対して、バグの多いコードを提出するベンチマークです。
FixEvalは、モデル生成プログラム修正の正確性を評価するために、ユニットテストの広範なコレクションを提供する。
実験の結果,マッチングに基づくメトリクスは,モデル生成プログラムの修正を正確に反映しないことがわかった。
論文 参考訳(メタデータ) (2022-06-15T20:18:43Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z) - Learning from Self-Sampled Correct and Partially-Correct Programs [96.66452896657991]
そこで本研究では,モデルが学習中にサンプリングを行い,自己サンプリングされた完全正当プログラムと部分正当プログラムの両方から学習することを提案する。
自己サンプリング型プログラムと部分修正型プログラムを併用することで,学習とサンプリングプロセスのガイドに役立てることができることを示す。
提案手法は,MLEを用いた単一の参照プログラムからの学習と比較して,パス@kの性能を3.1%から12.3%向上させる。
論文 参考訳(メタデータ) (2022-05-28T03:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。