論文の概要: Dr. Boot: Bootstrapping Program Synthesis Language Models to Perform Repairing
- arxiv url: http://arxiv.org/abs/2507.15889v1
- Date: Sun, 20 Jul 2025 02:10:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.791606
- Title: Dr. Boot: Bootstrapping Program Synthesis Language Models to Perform Repairing
- Title(参考訳): ブートストラッププログラム合成言語モデルによる修復
- Authors: Noah van der Vleuten,
- Abstract要約: 本稿では,プログラム合成のためのブートストラップアルゴリズムを提案する。
ブートストレッピングが通常の微調整より一貫して優れていることを示す。
APPSデータセットのトレーニング部分には、サンプルテストケースに問題があることが分かりました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models for program synthesis are usually trained and evaluated on programming competition datasets (MBPP, APPS). However, these datasets are limited in size and quality, while these language models are extremely data hungry. Additionally, the language models have a misaligned program synthesis process compared to humans. While humans iteratively develop code with the help of a compiler, most program synthesis models currently produce code in one go. To solve these issues, we introduce a bootstrapping algorithm for program synthesis, that supports teaching models how to repair. We show that bootstrapping consistently outperforms regular fine-tuning. Compared to other work, our bootstrapped model performs on par with fine-tuned models that are 68\% larger. Notably, bootstrapping with repairing also improves non-repairing performance compared to regular bootstrapping during inference. However, on our models, repairing during inference is likely inferior to simply sampling the same number of solutions. Furthermore, we find that there are issues with the example test cases in the training portion of the APPS dataset that are valuable to the community, as many repairing and reinforcement learning methods rely on them.
- Abstract(参考訳): プログラム合成のための言語モデルは、通常、プログラム競合データセット(MBPP、APPS)に基づいて訓練され、評価される。
しかし、これらのデータセットはサイズと品質に制限がある一方で、これらの言語モデルは極めてデータに飢えている。
さらに、言語モデルは、人間に比べてプログラム合成プロセスが不整合である。
人間はコンパイラの助けを借りてコードを反復的に開発するが、ほとんどのプログラム合成モデルは1行でコードを生成する。
これらの問題を解決するために,プログラム合成のためのブートストラップアルゴリズムを導入する。
ブートストレッピングが通常の微調整より一貫して優れていることを示す。
他の研究と比較すると、当社のブートストラップモデルでは、68倍の大きさの微調整モデルと同等に動作します。
特に、補修によるブートストラップは、推論時の通常のブートストラップに比べて非補修性能が向上する。
しかし、我々のモデルでは、推論中の修復は、単に同じ数の解をサンプリングするよりも劣る可能性が高い。
さらに,APPSデータセットのトレーニング部分には,多くの補修・強化学習手法が頼っているため,コミュニティにとって価値のあるサンプルテストケースの問題があることが判明した。
関連論文リスト
- Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - Make Some Noise: Unlocking Language Model Parallel Inference Capability through Noisy Training [54.581599828392854]
大規模言語モデルの教師付き微調整段階の代替として,Make Some Noise (MSN) トレーニングフレームワークを提案する。
トレーニング方法は、単にモデルの入力にいくつかのノイズを導入して、認知タスクを学習する。
一般領域とコード領域の両方の実験では、MSNはモデル性能を損なうことなく2.3-2.7倍の速度で推論できることを示した。
論文 参考訳(メタデータ) (2024-06-25T09:25:39Z) - Split and Rephrase with Large Language Models [2.499907423888049]
Split and Rephrase (SPRP) タスクは、複雑な文を短い文法文の列に分割する。
タスク上の大きな言語モデルを評価し、主要なメトリクスに基づいて、技術の現状を大幅に改善できることを示します。
論文 参考訳(メタデータ) (2023-12-18T10:16:37Z) - Catwalk: A Unified Language Model Evaluation Framework for Many Datasets [50.75378592254184]
Catwalkは、既存のNLPデータセットとモデルに統一されたインターフェースを提供する。
キャットウォークは、大規模に制御された実験を行うための障壁を著しく低くする。
論文 参考訳(メタデータ) (2023-12-15T23:11:45Z) - A Static Evaluation of Code Completion by Large Language Models [65.18008807383816]
単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,実行ベースベンチマークが提案されている。
プログラムを実行せずにエラーを検出するlinterのような静的解析ツールは、コード生成モデルを評価するために十分に研究されていない。
抽象構文木を利用して,Pythonのコード補完における静的エラーを定量化する静的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-05T19:23:34Z) - Fully Autonomous Programming with Large Language Models [0.9558392439655015]
LLM(Large Language Models)を用いたプログラム合成への最近のアプローチは、"ニアミスシンドローム"を示す。
我々は、LLMとプログラム合成ベンチマーク2としてOpenAI Codexを使用し、問題記述と評価のためのテストのデータベースとして使用します。
結果として生じるフレームワークは、修復フェーズなしでのCodexの従来の使用法と、従来の遺伝的プログラミングアプローチの両方を上回ります。
論文 参考訳(メタデータ) (2023-04-20T16:12:05Z) - Enhancing Automated Program Repair through Fine-tuning and Prompt
Engineering [2.3826139428423576]
シーケンス・ツー・シーケンスのモデルは、十分に大規模なデータセットでトレーニングされた時に、誤ったプログラムを正しいプログラムに変換するために使われてきた。
いくつかの最近の研究は、コードレビューがプログラムの修復をさらに改善できるという強い実証的な証拠を示した。
PLとNLの本質的な知識が,プログラムの自動修復の改善に有効かどうかを検討する。
論文 参考訳(メタデータ) (2023-04-16T17:29:51Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Program Synthesis with Large Language Models [40.41120807053989]
我々はPythonにおけるプログラム合成のための大規模言語モデルを評価する。
合成性能はモデルサイズと対数的にスケールすることがわかった。
最高のモデルでさえ、特定の入力を与えられたプログラムの出力を予測できないことが分かりました。
論文 参考訳(メタデータ) (2021-08-16T03:57:30Z) - Patching as Translation: the Data and the Metaphor [18.22949296398319]
ソフトウェアパッチは言語翻訳に似ている」ことを示す。
私たちは、経験的な発見とソフトウェア開発の一般的な知識に基づいて、モデル設計に対するより原則化されたアプローチが、よりよいソリューションをもたらすことを示しています。
このようなモデルを“概念の保護(proof-of-concept)”ツールとして実装し、それらが研究対象の翻訳ベースアーキテクチャと根本的に異なる、より効果的な方法で振る舞うことを実証的に確認します。
論文 参考訳(メタデータ) (2020-08-24T21:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。