論文の概要: TreeBERT: A Tree-Based Pre-Trained Model for Programming Language
- arxiv url: http://arxiv.org/abs/2105.12485v1
- Date: Wed, 26 May 2021 11:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 13:14:05.260123
- Title: TreeBERT: A Tree-Based Pre-Trained Model for Programming Language
- Title(参考訳): TreeBERT: プログラミング言語のためのツリーベース事前訓練モデル
- Authors: Xue Jiang, Zhuoran Zheng, Chen Lyu, Liang Li, Lei Lyu
- Abstract要約: TreeBERTは、プログラム言語指向生成タスクを改善するための、ツリーベースの事前学習モデルである。
このモデルは,木面言語モデリング (TMLM) とノード順序予測 (NOP) をハイブリッド目的として訓練する。
TreeBERTは他の事前訓練されたモデルやこれらのタスク用に設計された最先端モデルよりも優れています。
- 参考スコア(独自算出の注目度): 8.490673670172301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Source code can be parsed into the abstract syntax tree (AST) based on
defined syntax rules. However, in pre-training, little work has considered the
incorporation of tree structure into the learning process. In this paper, we
present TreeBERT, a tree-based pre-trained model for improving programming
language-oriented generation tasks. To utilize tree structure, TreeBERT
represents the AST corresponding to the code as a set of composition paths and
introduces node position embedding. The model is trained by tree masked
language modeling (TMLM) and node order prediction (NOP) with a hybrid
objective. TMLM uses a novel masking strategy designed according to the tree's
characteristics to help the model understand the AST and infer the missing
semantics of the AST. With NOP, TreeBERT extracts the syntactical structure by
learning the order constraints of nodes in AST. We pre-trained TreeBERT on
datasets covering multiple programming languages. On code summarization and
code documentation tasks, TreeBERT outperforms other pre-trained models and
state-of-the-art models designed for these tasks. Furthermore, TreeBERT
performs well when transferred to the pre-trained unseen programming language.
- Abstract(参考訳): ソースコードは定義された構文規則に基づいて抽象構文木(AST)に解析できる。
しかし,事前学習では,木構造を学習プロセスに組み込む研究はほとんど行われていない。
本稿では,プログラム言語指向生成タスクを改善するツリーベース事前学習モデルであるTreeBERTを提案する。
ツリー構造を利用するために、TreeBERTはコードに対応するASTを合成パスのセットとして表現し、ノード位置の埋め込みを導入する。
このモデルは,木面言語モデリング (TMLM) とノード順序予測 (NOP) をハイブリッド目的として訓練する。
TMLMは、ツリーの特性に応じて設計された新しいマスキング戦略を使用して、モデルがASTを理解し、ASTの欠落したセマンティクスを推測するのに役立つ。
NOPでは、TreeBERTはAST内のノードの順序制約を学習することで、構文構造を抽出する。
複数のプログラミング言語をカバーするデータセット上でTreeBERTを事前訓練した。
コード要約とコードドキュメンテーションタスクでは、TreeBERTは他のトレーニング済みモデルやこれらのタスク用に設計された最先端モデルよりも優れています。
さらに、TreeBERTは、事前訓練された未学習のプログラミング言語に移行すると、うまく機能する。
関連論文リスト
- SCALE: Constructing Structured Natural Language Comment Trees for Software Vulnerability Detection [36.37244302912536]
本稿では,事前学習モデルに基づく構造化自然言語コメント木に基づくvulnerAbiLity dEtectionフレームワークを提案する。
提案したStructured Natural Language Comment Tree (SCT)は、コードステートメントのセマンティクスとコード実行シーケンスを統合する。
論文 参考訳(メタデータ) (2024-03-28T02:20:03Z) - Tree Prompting: Efficient Task Adaptation without Fine-Tuning [112.71020326388029]
Tree Promptingはプロンプトの決定ツリーを構築し、複数のLMコールをリンクしてタスクを解決する。
分類データセットの実験により、Tree Promptingは競合するメソッドよりも精度が向上し、微調整と競合することが示された。
論文 参考訳(メタデータ) (2023-10-21T15:18:22Z) - Spatial Attention and Syntax Rule Enhanced Tree Decoder for Offine
Handwritten Mathematical Expression Recognition [12.656673677551778]
SS-TD(Spatial Attention and Syntax Rule Enhanced Tree Decoder)と呼ばれる新しいモデルを提案する。
我々のモデルは木構造を効果的に記述し、出力表現の精度を高めることができる。
実験により、SS-TDはCROHME 14/16/19データセットの以前のモデルよりも優れた認識性能が得られることが示された。
論文 参考訳(メタデータ) (2023-03-13T12:59:53Z) - RLET: A Reinforcement Learning Based Approach for Explainable QA with
Entailment Trees [47.745218107037786]
本稿では,強化学習に基づくEntailment Tree生成フレームワークであるRLETを提案する。
RLETは文の選択と推論生成モジュールによる単一ステップ推論を反復的に行う。
EntailmentBankデータセットの3つの設定の実験では、RLフレームワークを使用することの強みが示されている。
論文 参考訳(メタデータ) (2022-10-31T06:45:05Z) - Structure-Unified M-Tree Coding Solver for MathWord Problem [57.825176412485504]
従来,数式表現の2次木構造を考慮に入れたモデルでは,性能が向上した。
本稿では、出力構造を統一するために、任意のM枝(M-tree)を持つ木を適用した構造統一M-Tree符号化(S-UMCr)を提案する。
広く使われているMAWPSとMath23Kデータセットの実験結果は、SUMC-rが複数の最先端モデルを上回るだけでなく、低リソース条件下でもはるかに優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-10-22T12:20:36Z) - Syntax-BERT: Improving Pre-trained Transformers with Syntax Trees [15.245017922785403]
本稿では,構文木を事前学習したトランスフォーマーに効果的に組み込む新しいフレームワークSyntax-BERTを提案する。
自然言語理解の様々なデータセットの実験は、構文木の有効性を検証し、複数の事前学習モデルに対して一貫した改善を実現する。
論文 参考訳(メタデータ) (2021-03-07T13:11:31Z) - Recursive Top-Down Production for Sentence Generation with Latent Trees [77.56794870399288]
自然および合成言語に対する文脈自由文法の生成特性をモデル化する。
潜伏二分木構造にN$の葉を持つ動的プログラミングアルゴリズムを提案する。
また,Multi30kデータセットを用いたドイツ語と英語の翻訳実験を行った。
論文 参考訳(メタデータ) (2020-10-09T17:47:16Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z) - CodeBERT: A Pre-Trained Model for Programming and Natural Languages [117.34242908773061]
CodeBERTは、プログラミング言語(PL)とナット言語(NL)のための事前訓練されたモデルである。
我々はTransformerベースのニューラルアーキテクチャを用いたCodeBERTを開発した。
モデルパラメータの微調整による2つのNL-PLアプリケーション上でのCodeBERTの評価を行った。
論文 参考訳(メタデータ) (2020-02-19T13:09:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。