論文の概要: Structure-Aware Fill-in-the-Middle Pretraining for Code
- arxiv url: http://arxiv.org/abs/2506.00204v1
- Date: Fri, 30 May 2025 20:19:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.501932
- Title: Structure-Aware Fill-in-the-Middle Pretraining for Code
- Title(参考訳): コードのための構造対応フィリング・イン・ザ・ミドルプレトレーニング
- Authors: Linyuan Gong, Alvin Cheung, Mostafa Elhoushi, Sida Wang,
- Abstract要約: AST-FIMは抽象構文木(AST)を利用して,大規模な構文構造を隠蔽する事前学習戦略である。
実世界のフィリング・イン・ザ・ミドル(FIM)プログラミングタスクを評価するために、12言語にわたる3万以上のGitHubコミットから得られたベンチマークであるReal-FIM-Evalを紹介した。
実験により、AST-FIMは、標準のFIMベンチマークで最大5 ptの精度で標準のランダム文字FIMを上回り、現実世界のコード編集に特に有益であることが示されている。
- 参考スコア(独自算出の注目度): 12.62951607231733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fill-in-the-Middle (FIM) is a common pretraining method for code LLMs, where models complete code segments given surrounding context. However, existing LLMs treat code as plain text and mask random character spans. We propose and evaluate AST-FIM, a pretraining strategy that leverages Abstract Syntax Trees (ASTs) to mask complete syntactic structures at scale, ensuring coherent training examples better aligned with universal code structures and common code editing patterns such as blocks, expressions, or functions. To evaluate real-world fill-in-the-middle (FIM) programming tasks, we introduce Real-FIM-Eval, a benchmark derived from 30,000+ GitHub commits across 12 languages. On infilling tasks, experiments on 1B and 8B parameter models show that AST-FIM is particularly beneficial for real-world code editing as it outperforms standard random-character FIM by up to 5 pts on standard FIM benchmarks. Our code is publicly available at https://github.com/gonglinyuan/ast_fim.
- Abstract(参考訳): Fill-in-the-Middle (FIM) は、モデルが周囲のコンテキストに与えられたコードセグメントを完成させる、コードLLMのための一般的な事前訓練手法である。
しかし、既存のLLMは、コードをプレーンテキストとして扱い、マスクランダム文字スパンとして扱う。
AST-FIMは抽象構文木(AST)を利用して,完全な構文構造を大規模にマスマスキングし,共通コード構造やブロック,式,関数などの共通コード編集パターンとの整合性を確保するための事前学習戦略である。
実世界のフィリング・イン・ザ・ミドル(FIM)プログラミングタスクを評価するために、12言語にわたる3万以上のGitHubコミットから得られたベンチマークであるReal-FIM-Evalを紹介した。
入力タスクにおいて、1Bおよび8Bパラメータモデルの実験は、AST-FIMが標準のFIMベンチマークで最大5 ptの精度で標準のランダム文字FIMを上回り、現実世界のコード編集に特に有益であることを示している。
私たちのコードはhttps://github.com/gonglinyuan/ast_fim.comで公開されています。
関連論文リスト
- Type-Constrained Code Generation with Language Models [51.03439021895432]
本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。
そこで本研究では,新しい接頭辞オートマトンと,在来型を探索する手法を開発し,LLM生成コードに適切な型付けを強制するための健全なアプローチを構築した。
提案手法は,コード合成,翻訳,修復作業において,コンパイルエラーを半分以上削減し,機能的正しさを著しく向上させる。
論文 参考訳(メタデータ) (2025-04-12T15:03:00Z) - ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。
Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。
本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文 参考訳(メタデータ) (2025-03-27T23:08:53Z) - Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks [12.629516072317331]
Syntax-Aware Fill-in-the-Middle (SAFIM)は、コードFill-in-the-Middle(FIM)タスク上でLLM(Large Language Models)を評価するための新しいベンチマークである。
このベンチマークは、コードブロックや条件式などのプログラム構造の構文対応補完に焦点を当てている。
論文 参考訳(メタデータ) (2024-03-07T05:05:56Z) - Learning Label Modular Prompts for Text Classification in the Wild [56.66187728534808]
そこで本研究では,非定常学習/テスト段階の異なるテキスト分類手法を提案する。
複雑なタスクをモジュラー成分に分解することで、そのような非定常環境下での堅牢な一般化が可能になる。
テキスト分類タスクのためのラベルモジュール型プロンプトチューニングフレームワークMODcularPROMPTを提案する。
論文 参考訳(メタデータ) (2022-11-30T16:26:38Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - UniXcoder: Unified Cross-Modal Pre-training for Code Representation [65.6846553962117]
プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。
木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。
我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
論文 参考訳(メタデータ) (2022-03-08T04:48:07Z) - Improving Code Summarization with Block-wise Abstract Syntax Tree
Splitting [15.28941592388958]
ソースコードの構文構造を表現した抽象構文木(AST)がコード要約の生成をガイドするために組み込まれている。
既存のastベースのメソッドはトレーニングが困難で、不適切なコード要約を生成する。
ASTのリッチツリー形式の構文構造をフル活用したBlock-wise Abstract Syntax Tree Splitting法(BASTS)を提案する。
論文 参考訳(メタデータ) (2021-03-14T05:04:06Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。