論文の概要: Fully Autonomous Programming with Large Language Models
- arxiv url: http://arxiv.org/abs/2304.10423v1
- Date: Thu, 20 Apr 2023 16:12:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 12:38:05.494380
- Title: Fully Autonomous Programming with Large Language Models
- Title(参考訳): 大規模言語モデルによる完全自律プログラミング
- Authors: Vadim Liventsev and Anastasiia Grishina and Aki H\"arm\"a and Leon
Moonen
- Abstract要約: LLM(Large Language Models)を用いたプログラム合成への最近のアプローチは、"ニアミスシンドローム"を示す。
我々は、LLMとプログラム合成ベンチマーク2としてOpenAI Codexを使用し、問題記述と評価のためのテストのデータベースとして使用します。
結果として生じるフレームワークは、修復フェーズなしでのCodexの従来の使用法と、従来の遺伝的プログラミングアプローチの両方を上回ります。
- 参考スコア(独自算出の注目度): 0.9558392439655015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current approaches to program synthesis with Large Language Models (LLMs)
exhibit a "near miss syndrome": they tend to generate programs that
semantically resemble the correct answer (as measured by text similarity
metrics or human evaluation), but achieve a low or even zero accuracy as
measured by unit tests due to small imperfections, such as the wrong input or
output format. This calls for an approach known as Synthesize, Execute, Debug
(SED), whereby a draft of the solution is generated first, followed by a
program repair phase addressing the failed tests. To effectively apply this
approach to instruction-driven LLMs, one needs to determine which prompts
perform best as instructions for LLMs, as well as strike a balance between
repairing unsuccessful programs and replacing them with newly generated ones.
We explore these trade-offs empirically, comparing replace-focused,
repair-focused, and hybrid debug strategies, as well as different
template-based and model-based prompt-generation techniques. We use OpenAI
Codex as the LLM and Program Synthesis Benchmark 2 as a database of problem
descriptions and tests for evaluation. The resulting framework outperforms both
conventional usage of Codex without the repair phase and traditional genetic
programming approaches.
- Abstract(参考訳): 現在、Large Language Models (LLMs) によるプログラム合成のアプローチでは、正しい解法にセマンティックに類似したプログラムを生成する傾向があり(テキスト類似度測定や人的評価によって測定される)、間違った入力や出力フォーマットのような小さな欠陥によって単体テストによって測定されるような低またはゼロの精度を達成する。
これにより、最初にソリューションのドラフトを生成し、その後に失敗したテストに対処するプログラム修復フェーズを生成する、synthetic、execute、debug(sed)と呼ばれるアプローチが要求される。
この手法を命令駆動型LLMに効果的に適用するには、どのプロンプトがLLMの命令として最適かを判断し、失敗したプログラムを修復して新たに生成されたプログラムに置き換えるバランスをとる必要がある。
これらのトレードオフを経験的に検討し、代替、修復、ハイブリッドなデバッグ戦略と、テンプレートベースおよびモデルベースのプロンプトジェネレーション手法を比較した。
我々は,openai codexをllmおよびプログラム合成ベンチマーク2として,問題記述と評価テストのデータベースとして使用する。
結果として得られたフレームワークは、修復フェーズなしでのcodexの従来の使用と、従来の遺伝的プログラミングアプローチを上回っている。
関連論文リスト
- Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Code Repair with LLMs gives an Exploration-Exploitation Tradeoff [16.80314690163063]
大きな言語モデル(LLM)でソースコードを反復的に改善し、修復することは、1ショットで構築するには複雑すぎるプログラムを生成する一般的な方法として現れている。
ここでは、リファインメントが探索と露見のトレードオフを露呈していることを示します。ほとんどのテストケースをパスするプログラムをリファイン化したり、考慮の少ないプログラムをリファインダでリファインダすることです。
論文 参考訳(メタデータ) (2024-05-26T04:00:30Z) - HYSYNTH: Context-Free LLM Approximation for Guiding Program Synthesis [25.260063704712458]
大規模言語モデル(LLM)は、よく知らないDSLで完全に正しいプログラムを生成するのに失敗する。
これらの制約により、与えられたタスクに対する LLM 補完をタスク固有の文脈自由代用モデル学習に使用するハイブリッドアプローチを導入する。
このハイブリッドなアプローチを3つの領域で評価し、既存のプログラムシンセサイザーと同様に、無誘導探索とLCMからの直接サンプリングの両方より優れていることを示す。
論文 参考訳(メタデータ) (2024-05-24T18:45:51Z) - Automated Program Repair: Emerging trends pose and expose problems for benchmarks [7.437224586066947]
大規模言語モデル(LLM)はソフトウェアパッチの生成に使用される。
評価と比較は、結果が有効であり、一般化する可能性が高いことを保証するために注意する必要があります。
大規模かつしばしば開示されていないトレーニングデータセットには、評価される問題が含まれている可能性がある。
論文 参考訳(メタデータ) (2024-05-08T23:09:43Z) - Benchmarking Educational Program Repair [4.981275578987307]
大きな言語モデル(LLM)は、学習リソースの生成、エラーメッセージの改善、コードに対するフィードバックの提供に使用することができる。
競合するアプローチの公平な比較を容易にするため、標準化とベンチマークが強く求められている。
本稿では,新しい教育プログラム修復ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-05-08T18:23:59Z) - NExT: Teaching Large Language Models to Reason about Code Execution [50.93581376646064]
大規模言語モデル(LLM)のコードは通常、プログラムの表面テキスト形式に基づいて訓練される。
NExTは,プログラムの実行トレースを検査し,実行時の動作を判断する手法である。
論文 参考訳(メタデータ) (2024-04-23T01:46:32Z) - ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle
Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。
我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。
実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-24T00:10:15Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z) - Learning from Self-Sampled Correct and Partially-Correct Programs [96.66452896657991]
そこで本研究では,モデルが学習中にサンプリングを行い,自己サンプリングされた完全正当プログラムと部分正当プログラムの両方から学習することを提案する。
自己サンプリング型プログラムと部分修正型プログラムを併用することで,学習とサンプリングプロセスのガイドに役立てることができることを示す。
提案手法は,MLEを用いた単一の参照プログラムからの学習と比較して,パス@kの性能を3.1%から12.3%向上させる。
論文 参考訳(メタデータ) (2022-05-28T03:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。