Fugu-MT 論文翻訳(概要): Syntax Is Not Enough: An Empirical Study of Small Transformer Models for Neural Code Repair

論文の概要: Syntax Is Not Enough: An Empirical Study of Small Transformer Models for Neural Code Repair

arxiv url: http://arxiv.org/abs/2512.22216v1
Date: Mon, 22 Dec 2025 10:34:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-30 22:37:29.897394
Title: Syntax Is Not Enough: An Empirical Study of Small Transformer Models for Neural Code Repair
Title（参考訳）: 構文解析は十分ではない:ニューラルコード修復のための小型変圧器モデルの実証研究
Authors: Shaunak Samant,
Abstract要約: 本研究では,小型変圧器モデルが実世界のJavaバグを有意義に修復できるかどうかを検討する。 CodeXGLUE から 52,364 の Java バグフィックスペアに対して CodeT5-small (60.5M パラメータ) を微調整する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automated program repair using neural models has shown promising results on benchmark datasets, yet practical deployment remains limited. In this study, we examine whether a small transformer model can meaningfully repair real-world Java bugs and whether syntactic correctness is a reliable proxy for semantic correctness. We fine-tune CodeT5-small (60.5M parameters) on 52,364 Java bug-fix pairs from CodeXGLUE and evaluate both token-level performance and syntactic validity using AST parsing. While the model converges cleanly and achieves high grammatical correctness, producing syntactically valid Java code in approximately ninety-four percent of cases, it fails to generate correct repairs under exact-match evaluation, achieving zero exact matches. In approximately eighty percent of cases, the model reproduces the buggy input verbatim.
Abstract（参考訳）: ニューラルネットワークを使用したプログラムの自動修復は、ベンチマークデータセットで有望な結果を示しているが、実際のデプロイメントは限られている。本研究では,小さなトランスフォーマーモデルが実世界のJavaバグを有意義に修復できるかどうか,構文的正しさが意味論的正しさの信頼できるプロキシであるかどうかを検討する。 CodeXGLUE から 52,364 個の Java バグフィックスペア上で CodeT5-small (60.5M パラメータ) を微調整し,AST 解析を用いてトークンレベルの性能と構文的妥当性を評価する。モデルはクリーンに収束し、高い文法的正当性を達成し、約94%のケースで構文的に有効なJavaコードを生成するが、正確なマッチング評価の下で正しい修正を生成できず、正確な一致が得られない。約80%のケースでは、モデルはバギー入力の動詞を再現する。

関連論文リスト

SemGuard: Real-Time Semantic Evaluator for Correcting LLM-Generated Code [46.20378145112059]
ポストホック修復パイプラインは、実行後にのみそのような障害を検出する。本稿では,実時間で行レベルのセマンティック監視を行うセマンティック評価フレームワークSemGuardを紹介する。
論文参考訳（メタデータ） (2025-09-29T09:21:32Z)
Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。従来の自己回帰復号法と比較して,STANDは推論遅延を60～65%削減することを示した。モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文参考訳（メタデータ） (2025-06-05T07:31:18Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Neuron Patching: Semantic-based Neuron-level Language Model Repair for Code Generation [32.178931149612644]
ulModel ulImprovement via ulNeuron ulTargeting (textscMINT)は、コード言語モデル(LM)を修復するための新しいアプローチである。 textscMINTは有効で効率的で信頼性が高く、最小数のニューロンにパッチを当てることで神経モデルを修正できる。
論文参考訳（メタデータ） (2023-12-08T20:28:08Z)
Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文参考訳（メタデータ） (2023-04-11T10:43:43Z)
Fixing Model Bugs with Natural Language Patches [38.67529353406759]
私たちは、開発者が適切な抽象化レベルで修正的なフィードバックを提供できるように、自然言語パッチを調査します。少量の合成データを用いて、実際のデータに実際のパッチを効果的に利用するモデルを教えることができることを示す。また、少数の言語パッチのパフォーマンスに合わせるために、ラベル付き例を100個まで微調整する必要があることも示している。
論文参考訳（メタデータ） (2022-11-07T05:49:19Z)
Finding Deep-Learning Compilation Bugs with NNSmith [20.082492391396933]
本稿では,ディープラーニングコンパイラのバグ発見のためのファズテスト手法を提案する。我々の中核的なアプローチは、(i)軽量な演算子仕様を使用して、多種多様な有効なモデルを生成し、(ii)勾配ベースの探索プロセスを作成し、(iii)差分テストによってバグを特定します。我々は,この手法をNSmithで実施し,TVM,RT,ONNXRuntime,PyTorchの過去7ヶ月で65の新たなバグを発見した。そのうち52件が確認され,メンテナによって44件が修正されている。
論文参考訳（メタデータ） (2022-07-26T17:39:51Z)
BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。 APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文参考訳（メタデータ） (2022-06-21T18:34:11Z)
FixEval: Execution-based Evaluation of Program Fixes for Programming Problems [23.987104440395576]
FixEvalは、競合するプログラミング問題とそれに対応する修正に対して、バグの多いコードを提出するベンチマークです。 FixEvalは、モデル生成プログラム修正の正確性を評価するために、ユニットテストの広範なコレクションを提供する。実験の結果,マッチングに基づくメトリクスは,モデル生成プログラムの修正を正確に反映しないことがわかった。
論文参考訳（メタデータ） (2022-06-15T20:18:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。