論文の概要: AstBERT: Enabling Language Model for Code Understanding with Abstract
Syntax Tree
- arxiv url: http://arxiv.org/abs/2201.07984v1
- Date: Thu, 20 Jan 2022 03:27:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-22 00:59:09.938915
- Title: AstBERT: Enabling Language Model for Code Understanding with Abstract
Syntax Tree
- Title(参考訳): AstBERT:抽象構文木を用いたコード理解のための言語モデル
- Authors: Rong Liang, Yujie Lu, Zhen Huang, Tiehua Zhang, Yuze Liu
- Abstract要約: 抽象構文木(AST)を用いてプログラミング言語(PL)をよりよく理解することを目的とした事前学習型言語モデルAstBERTモデルを提案する。
具体的には、GitHubから大量のソースコード(javaとpythonの両方)を収集し、ソースコードに関する情報を解釈して統合することができます。
実験結果から,我々のAstBERTモデルが両下流タスクの最先端性能を達成することが示された。
- 参考スコア(独自算出の注目度): 3.1087379479634927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using a pre-trained language model (i.e. BERT) to apprehend source codes has
attracted increasing attention in the natural language processing community.
However, there are several challenges when it comes to applying these language
models to solve programming language (PL) related problems directly, the
significant one of which is the lack of domain knowledge issue that
substantially deteriorates the model's performance. To this end, we propose the
AstBERT model, a pre-trained language model aiming to better understand the PL
using the abstract syntax tree (AST). Specifically, we collect a colossal
amount of source codes (both java and python) from GitHub and incorporate the
contextual code knowledge into our model through the help of code parsers, in
which AST information of the source codes can be interpreted and integrated. We
verify the performance of the proposed model on code information extraction and
code search tasks, respectively. Experiment results show that our AstBERT model
achieves state-of-the-art performance on both downstream tasks (with 96.4% for
code information extraction task, and 57.12% for code search task).
- Abstract(参考訳): ソースコードを認証するために事前訓練された言語モデル(BERT)を使用することは、自然言語処理コミュニティで注目を集めている。
しかし、プログラミング言語(PL)に関連する問題を直接解決するためにこれらの言語モデルを適用することについては、いくつかの課題がある。
そこで本研究では,抽象構文木(AST)を用いてPLをよりよく理解することを目的とした,事前学習型言語モデルAstBERTモデルを提案する。
具体的には、githubから大量のソースコード(javaとpythonの両方)を収集し、ソースコードのast情報を解釈して統合するコードパーサの助けを借りて、私たちのモデルにコンテキストコード知識を取り入れます。
本稿では,コード情報抽出タスクとコード検索タスクにおける提案モデルの性能を検証する。
実験の結果,astbertモデルでは,ダウンストリームタスクともに最新性能を実現している(コード情報抽出タスクは96.4%,コード検索タスクは57.12%)。
関連論文リスト
- CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - Interpreting Language Models Through Knowledge Graph Extraction [42.97929497661778]
BERTに基づく言語モデルを,学習過程の逐次的な段階において取得した知識のスナップショットを通じて比較する。
本稿では, クローズイン・ザ・ブランク文から知識グラフを抽出し, 知識獲得のタイムラインを提示する手法を提案する。
この分析を, BERTモデル(DistilBERT, BERT-base, RoBERTa)の事前学習変化の比較に拡張する。
論文 参考訳(メタデータ) (2021-11-16T15:18:01Z) - CLSEBERT: Contrastive Learning for Syntax Enhanced Code Pre-Trained
Model [23.947178895479464]
CLSEBERTは,構文強化符号事前学習モデルのための構築学習フレームワークである。
事前学習段階では、抽象構文木(AST)に含まれるコード構文と階層について検討する。
ひとつは抽象構文木内のノード間のエッジを予測することであり、もう一つはコードトークンの型を予測することである。
論文 参考訳(メタデータ) (2021-08-10T10:08:21Z) - BERT2Code: Can Pretrained Language Models be Leveraged for Code Search? [0.7953229555481884]
我々は,本モデルが埋め込み空間と改良のスコープに対するさらなるプローブの間に固有の関係を学習することを示す。
本稿では,コード埋め込みモデルの品質が,我々のモデルの性能のボトルネックであることを示す。
論文 参考訳(メタデータ) (2021-04-16T10:28:27Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z) - CodeBERT: A Pre-Trained Model for Programming and Natural Languages [117.34242908773061]
CodeBERTは、プログラミング言語(PL)とナット言語(NL)のための事前訓練されたモデルである。
我々はTransformerベースのニューラルアーキテクチャを用いたCodeBERTを開発した。
モデルパラメータの微調整による2つのNL-PLアプリケーション上でのCodeBERTの評価を行った。
論文 参考訳(メタデータ) (2020-02-19T13:09:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。