論文の概要: AST-T5: Structure-Aware Pretraining for Code Generation and
Understanding
- arxiv url: http://arxiv.org/abs/2401.03003v3
- Date: Thu, 7 Mar 2024 05:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 17:18:22.453661
- Title: AST-T5: Structure-Aware Pretraining for Code Generation and
Understanding
- Title(参考訳): AST-T5: コード生成と理解のための構造認識事前トレーニング
- Authors: Linyuan Gong, Mostafa Elhoushi, Alvin Cheung
- Abstract要約: 大規模言語モデル(LLM)は、コードに関連するタスクにおいて大幅に進歩しているが、多くのLLMは単純なシーケンスとしてコードを扱う。
AST-T5は、抽象構文木(AST)を利用してコード生成、トランスパイレーション、理解を向上させる新しい事前トレーニングパラダイムである。
- 参考スコア(独自算出の注目度): 14.531550983885772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have made significant advancements in
code-related tasks, yet many LLMs treat code as simple sequences, neglecting
its structured nature. We introduce AST-T5, a novel pretraining paradigm that
leverages the Abstract Syntax Tree (AST) for enhanced code generation,
transpilation, and understanding. Using dynamic programming, our AST-Aware
Segmentation retains code structure, while our AST-Aware Span Corruption
objective equips the model to reconstruct various code structures. Unlike other
models, AST-T5 avoids intricate program analyses or architectural changes, so
it integrates seamlessly with any encoder-decoder Transformer. Evaluations show
that AST-T5 consistently outperforms similar-sized LMs across various
code-related tasks. Structure-awareness makes AST-T5 particularly powerful in
code-to-code tasks, surpassing CodeT5 by 2 points in exact match score for the
Bugs2Fix task and by 3 points in exact match score for Java-C# Transpilation in
CodeXGLUE. Our code and model are publicly available at
https://github.com/gonglinyuan/ast_t5.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コードに関連するタスクにおいて大幅な進歩を遂げているが、多くのLLMは、その構造的性質を無視した単純なシーケンスとしてコードを扱う。
AST-T5は、抽象構文木(AST)を利用してコード生成、トランスパイレーション、理解を向上させる新しい事前トレーニングパラダイムである。
動的プログラミングを用いて、AST-Aware Segmentationはコード構造を保持しますが、AST-Aware Span Corruptionは、さまざまなコード構造を再構築するためのモデルを提供します。
他のモデルとは異なり、AST-T5は複雑なプログラム分析やアーキテクチャの変更を避けるため、エンコーダ・デコーダ変換器とシームレスに統合される。
AST-T5 は、様々なコード関連タスクにおいて、同様の大きさの LM を一貫して上回っている。
AST-T5はコード間タスクにおいて特に強力で、Bug2Fixタスクの正確なマッチスコアの2ポイント、CodeXGLUEのJava-C#トランスパイレーションの正確なマッチスコアの3ポイントを超えている。
私たちのコードとモデルはhttps://github.com/gonglinyuan/ast_t5で公開されています。
関連論文リスト
- SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - AST-MHSA : Code Summarization using Multi-Head Self-Attention [1.588193964339148]
本稿では,抽象構文木(AST)から意味情報を抽出するためにマルチヘッドアテンションを用いたAST-MHSAモデルを提案する。
モデルは、コードとサマリーのデータセットに基づいてトレーニングされ、生成されたサマリーとグラウンド・トゥルース・サマリーの間の損失を最小限に抑えるためにパラメータが最適化される。
論文 参考訳(メタデータ) (2023-08-10T15:43:46Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - Outline, Then Details: Syntactically Guided Coarse-To-Fine Code
Generation [61.50286000143233]
ChainCoderは、Pythonコードを段階的に生成するプログラム合成言語モデルである。
自然言語記述と構文的に整合したI/Oデータサンプルを共同で符号化するために、カスタマイズされたトランスフォーマーアーキテクチャを利用する。
論文 参考訳(メタデータ) (2023-04-28T01:47:09Z) - M2TS: Multi-Scale Multi-Modal Approach Based on Transformer for Source
Code Summarization [0.4061135251278187]
ソースコードの要約は、コードスニペットの自然言語記述を生成することを目的としている。
ソースコード要約のためのTransformerに基づくマルチスケールマルチモーダルアプローチであるM2TSを提案する。
2つのJavaデータセットと1つのPythonデータセットで実験を行い、M2TSが現在の最先端手法より優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-03-18T02:54:06Z) - UniXcoder: Unified Cross-Modal Pre-training for Code Representation [65.6846553962117]
プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。
木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。
我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
論文 参考訳(メタデータ) (2022-03-08T04:48:07Z) - AST-Transformer: Encoding Abstract Syntax Trees Efficiently for Code
Summarization [14.225206904493627]
木構造ASTを効率的にエンコードするAST-Transformerを提案する。
実験により、AST-Transformerは最先端技術よりも相当なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2021-12-02T12:57:22Z) - Contrastive Learning for Source Code with Structural and Functional
Properties [66.10710134948478]
本稿では,ソースコードの特徴に基づいて事前学習に焦点を当てた,新たな自己教師型モデルBOOSTを提案する。
私たちは、機能的に等価なコードを生成する自動化された構造誘導型コード変換アルゴリズムを採用しています。
私たちは、対照的な学習目標を通じて、機能的に等価なコードをより近く、異なるコードに近づける方法で、モデルをトレーニングします。
論文 参考訳(メタデータ) (2021-10-08T02:56:43Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。