Fugu-MT 論文翻訳(概要): Fully Autonomous Programming with Large Language Models

論文の概要: Fully Autonomous Programming with Large Language Models

arxiv url: http://arxiv.org/abs/2304.10423v1
Date: Thu, 20 Apr 2023 16:12:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-21 12:38:05.494380
Title: Fully Autonomous Programming with Large Language Models
Title（参考訳）: 大規模言語モデルによる完全自律プログラミング
Authors: Vadim Liventsev and Anastasiia Grishina and Aki H\"arm\"a and Leon Moonen
Abstract要約: LLM(Large Language Models)を用いたプログラム合成への最近のアプローチは、"ニアミスシンドローム"を示す。我々は、LLMとプログラム合成ベンチマーク2としてOpenAI Codexを使用し、問題記述と評価のためのテストのデータベースとして使用します。結果として生じるフレームワークは、修復フェーズなしでのCodexの従来の使用法と、従来の遺伝的プログラミングアプローチの両方を上回ります。
参考スコア（独自算出の注目度）: 0.9558392439655015
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current approaches to program synthesis with Large Language Models (LLMs) exhibit a "near miss syndrome": they tend to generate programs that semantically resemble the correct answer (as measured by text similarity metrics or human evaluation), but achieve a low or even zero accuracy as measured by unit tests due to small imperfections, such as the wrong input or output format. This calls for an approach known as Synthesize, Execute, Debug (SED), whereby a draft of the solution is generated first, followed by a program repair phase addressing the failed tests. To effectively apply this approach to instruction-driven LLMs, one needs to determine which prompts perform best as instructions for LLMs, as well as strike a balance between repairing unsuccessful programs and replacing them with newly generated ones. We explore these trade-offs empirically, comparing replace-focused, repair-focused, and hybrid debug strategies, as well as different template-based and model-based prompt-generation techniques. We use OpenAI Codex as the LLM and Program Synthesis Benchmark 2 as a database of problem descriptions and tests for evaluation. The resulting framework outperforms both conventional usage of Codex without the repair phase and traditional genetic programming approaches.
Abstract（参考訳）: 現在、Large Language Models (LLMs) によるプログラム合成のアプローチでは、正しい解法にセマンティックに類似したプログラムを生成する傾向があり(テキスト類似度測定や人的評価によって測定される)、間違った入力や出力フォーマットのような小さな欠陥によって単体テストによって測定されるような低またはゼロの精度を達成する。これにより、最初にソリューションのドラフトを生成し、その後に失敗したテストに対処するプログラム修復フェーズを生成する、synthetic、execute、debug(sed)と呼ばれるアプローチが要求される。この手法を命令駆動型LLMに効果的に適用するには、どのプロンプトがLLMの命令として最適かを判断し、失敗したプログラムを修復して新たに生成されたプログラムに置き換えるバランスをとる必要がある。これらのトレードオフを経験的に検討し、代替、修復、ハイブリッドなデバッグ戦略と、テンプレートベースおよびモデルベースのプロンプトジェネレーション手法を比較した。我々は,openai codexをllmおよびプログラム合成ベンチマーク2として,問題記述と評価テストのデータベースとして使用する。結果として得られたフレームワークは、修復フェーズなしでのcodexの従来の使用と、従来の遺伝的プログラミングアプローチを上回っている。

関連論文リスト

Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [84.30534714651093]
本稿では,検証を意識したプログラミング言語であるDafnyに対して,革新的なAPRツールを提案する。プログラム内の各ステートメントの状態を決定するために、Hoare Logicの使用を含む一連のステップを通じて、障害をローカライズします。実世界のDafnyプログラムのベンチマークであるDafnyBenchを用いて,我々のアプローチを評価する。
論文参考訳（メタデータ） (2025-07-04T15:36:12Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
Program Semantic Inequivalence Game with Large Language Models [10.358176296850639]
大きな言語モデル(LLM)は、日々のコーディングタスクにおいて強力なパフォーマンスを達成することができるが、プログラムのセマンティクスに関する非自明な推論を必要とする複雑なタスクでは失敗する可能性がある。本研究では,意味的不等価ゲームSInQに基づいて,コード推論学習データを合成的に生成する手法について検討する。この設定により、無限の計算資源の限界における自己再生による理論的に無制限な改善が可能であることを証明した。
論文参考訳（メタデータ） (2025-05-02T20:03:35Z)
SymRTLO: Enhancing RTL Code Optimization with LLMs and Neuron-Inspired Symbolic Reasoning [18.40402135952776]
本稿では,新しいニューロン-シンボリックRTL最適化フレームワークであるSymRTLOを提案する。有限状態機械(FSM)論理の解析と最適化のための記号モジュールを提案する。 Synopsys Design Compiler と Yosys による RTL-Rewriter ベンチマークの実験では、SymRTLO は 43.9% と 62.5% と 51.1% に向上している。
論文参考訳（メタデータ） (2025-04-14T16:15:55Z)
Self-Steering Language Models [113.96916935955842]
DisCIPLは、"セルフステアリング(self-steering)"言語モデルのメソッドである。 DisCIPLはPlannerモデルを使用してタスク固有の推論プログラムを生成する。我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文参考訳（メタデータ） (2025-04-09T17:54:22Z)
Fully Autonomous Programming using Iterative Multi-Agent Debugging with Large Language Models [8.70160958177614]
大言語モデル(LLM)を用いたプログラム合成は「ニアミス症候群」に苦しむ我々は、SEIDR(Synthesize, Execute, Instruct, Debug and repair)と呼ばれるマルチエージェントフレームワークでこの問題に対処する。代替に焦点を当てた、修復に焦点を当てた、ハイブリッドなデバッグ戦略を比較することで、これらのトレードオフを実証的に探求します。
論文参考訳（メタデータ） (2025-03-10T16:56:51Z)
Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。 RISEは、事前定義された微妙なエラーをピボットトークンに注入する。 RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文参考訳（メタデータ） (2024-10-09T07:43:38Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
Code Repair with LLMs gives an Exploration-Exploitation Tradeoff [16.80314690163063]
大きな言語モデル(LLM)でソースコードを反復的に改善し、修復することは、1ショットで構築するには複雑すぎるプログラムを生成する一般的な方法として現れている。ここでは、リファインメントが探索と露見のトレードオフを露呈していることを示します。ほとんどのテストケースをパスするプログラムをリファイン化したり、考慮の少ないプログラムをリファインダでリファインダすることです。
論文参考訳（メタデータ） (2024-05-26T04:00:30Z)
HYSYNTH: Context-Free LLM Approximation for Guiding Program Synthesis [25.260063704712458]
大規模言語モデル(LLM)は、よく知らないDSLで完全に正しいプログラムを生成するのに失敗する。これらの制約により、与えられたタスクに対する LLM 補完をタスク固有の文脈自由代用モデル学習に使用するハイブリッドアプローチを導入する。このハイブリッドなアプローチを3つの領域で評価し、既存のプログラムシンセサイザーと同様に、無誘導探索とLCMからの直接サンプリングの両方より優れていることを示す。
論文参考訳（メタデータ） (2024-05-24T18:45:51Z)
Automated Program Repair: Emerging trends pose and expose problems for benchmarks [7.437224586066947]
大規模言語モデル(LLM)はソフトウェアパッチの生成に使用される。評価と比較は、結果が有効であり、一般化する可能性が高いことを保証するために注意する必要があります。大規模かつしばしば開示されていないトレーニングデータセットには、評価される問題が含まれている可能性がある。
論文参考訳（メタデータ） (2024-05-08T23:09:43Z)
Benchmarking Educational Program Repair [4.981275578987307]
大きな言語モデル(LLM)は、学習リソースの生成、エラーメッセージの改善、コードに対するフィードバックの提供に使用することができる。競合するアプローチの公平な比較を容易にするため、標準化とベンチマークが強く求められている。本稿では,新しい教育プログラム修復ベンチマークを提案する。
論文参考訳（メタデータ） (2024-05-08T18:23:59Z)
NExT: Teaching Large Language Models to Reason about Code Execution [50.93581376646064]
大規模言語モデル(LLM)のコードは通常、プログラムの表面テキスト形式に基づいて訓練される。 NExTは,プログラムの実行トレースを検査し,実行時の動作を判断する手法である。
論文参考訳（メタデータ） (2024-04-23T01:46:32Z)
ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文参考訳（メタデータ） (2023-05-24T00:10:15Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)
Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文参考訳（メタデータ） (2022-06-04T22:01:05Z)
Learning from Self-Sampled Correct and Partially-Correct Programs [96.66452896657991]
そこで本研究では,モデルが学習中にサンプリングを行い,自己サンプリングされた完全正当プログラムと部分正当プログラムの両方から学習することを提案する。自己サンプリング型プログラムと部分修正型プログラムを併用することで,学習とサンプリングプロセスのガイドに役立てることができることを示す。提案手法は,MLEを用いた単一の参照プログラムからの学習と比較して,パス@kの性能を3.1%から12.3%向上させる。
論文参考訳（メタデータ） (2022-05-28T03:31:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。