論文の概要: Assessing the Effectiveness of Syntactic Structure to Learn Code Edit
Representations
- arxiv url: http://arxiv.org/abs/2106.06110v1
- Date: Fri, 11 Jun 2021 01:23:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 05:19:01.743436
- Title: Assessing the Effectiveness of Syntactic Structure to Learn Code Edit
Representations
- Title(参考訳): コード編集表現学習における構文構造の有効性評価
- Authors: Syed Arbaaz Qureshi, Sonu Mehta, Ranjita Bhagwan, Rahul Kumar
- Abstract要約: ソースコード編集の表現には抽象構文木(AST)の構造情報を用いる。
code2seqアプローチに触発されて,ASTの構造情報の利用がコード編集のタスクにどのように役立つかを評価する。
- 参考スコア(独自算出の注目度): 2.1793134762413433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent times, it has been shown that one can use code as data to aid
various applications such as automatic commit message generation, automatic
generation of pull request descriptions and automatic program repair. Take for
instance the problem of commit message generation. Treating source code as a
sequence of tokens, state of the art techniques generate commit messages using
neural machine translation models. However, they tend to ignore the syntactic
structure of programming languages.
Previous work, i.e., code2seq has used structural information from Abstract
Syntax Tree (AST) to represent source code and they use it to automatically
generate method names. In this paper, we elaborate upon this state of the art
approach and modify it to represent source code edits. We determine the effect
of using such syntactic structure for the problem of classifying code edits.
Inspired by the code2seq approach, we evaluate how using structural information
from AST, i.e., paths between AST leaf nodes can help with the task of code
edit classification on two datasets of fine-grained syntactic edits.
Our experiments shows that attempts of adding syntactic structure does not
result in any improvements over less sophisticated methods. The results suggest
that techniques such as code2seq, while promising, have a long way to go before
they can be generically applied to learning code edit representations. We hope
that these results will benefit other researchers and inspire them to work
further on this problem.
- Abstract(参考訳): 近年, 自動コミットメッセージ生成, プルリクエスト記述の自動生成, 自動プログラム修正など, 様々なアプリケーションを支援するために, データとしてコードを利用する方法が示されている。
例えば、コミットメッセージ生成の問題を考えてみましょう。
ソースコードをトークンのシーケンスとして扱うことで、最先端技術はニューラルマシン翻訳モデルを使用してコミットメッセージを生成する。
しかし、それらはプログラミング言語の構文構造を無視する傾向がある。
以前の作業、すなわちcode2seq は Abstract Syntax Tree (AST) の構造情報を使ってソースコードを表現し、メソッド名を自動的に生成した。
本稿では,この手法の状況について詳述し,ソースコードの編集を表現できるように修正する。
コード編集の分類問題に対して,このような構文構造を用いることの効果を判定する。
code2seqアプローチに触発されて、ASTの葉ノード間のパスがASTからの構造化情報、すなわち、粒度の細かい構文編集の2つのデータセットのコード編集分類にどのように役立つかを評価する。
実験の結果, 構文構造を付加する試みは, 洗練度が低い手法よりも改善しないことがわかった。
結果は、Code2seqのようなテクニックは有望ではあるが、コード編集表現の学習に汎用的に適用できるようになるまでには長い道のりがあることを示している。
これらの結果が他の研究者に利益をもたらし、この問題にさらなる取り組みを促すことを期待しています。
関連論文リスト
- LILO: Learning Interpretable Libraries by Compressing and Documenting Code [71.55208585024198]
LILOは、反復的に合成、圧縮、文書化を行う、ニューロシンボリックなフレームワークである。
LILOは、LLM誘導プログラム合成と、Stitchから自動化された最近のアルゴリズムの進歩を組み合わせたものである。
LILOのシンセサイザーが学習した抽象化を解釈し、デプロイするのを手助けすることで、AutoDocがパフォーマンスを向上させることが分かりました。
論文 参考訳(メタデータ) (2023-10-30T17:55:02Z) - Outline, Then Details: Syntactically Guided Coarse-To-Fine Code
Generation [61.50286000143233]
ChainCoderは、Pythonコードを段階的に生成するプログラム合成言語モデルである。
自然言語記述と構文的に整合したI/Oデータサンプルを共同で符号化するために、カスタマイズされたトランスフォーマーアーキテクチャを利用する。
論文 参考訳(メタデータ) (2023-04-28T01:47:09Z) - Soft-Labeled Contrastive Pre-training for Function-level Code
Representation [127.71430696347174]
textbfSoft-labeled contrastive pre-training framework with two positive sample construction method。
大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は、きめ細かいソフトラベルを得ることができる。
SCodeRは、7つのデータセットで4つのコード関連タスクに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T05:17:37Z) - UniXcoder: Unified Cross-Modal Pre-training for Code Representation [65.6846553962117]
プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。
木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。
我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
論文 参考訳(メタデータ) (2022-03-08T04:48:07Z) - ECMG: Exemplar-based Commit Message Generation [45.54414179533286]
コミットメッセージは、コード差分の内容(つまり、コードの変更)とそれらの背後にある意図を簡潔に記述する。
情報検索ベースの手法は、類似のコードdiffsのコミットメッセージを再利用し、ニューラルベースの手法は、コードdiffsとコミットメッセージ間のセマンティックな接続を学習する。
本稿では、類似のコミットメッセージを例に扱い、ニューラルネットワークモデルを誘導して正確なコミットメッセージを生成する、新しい例ベースのニューラルコミットメッセージ生成モデルを提案する。
論文 参考訳(メタデータ) (2022-03-05T10:55:15Z) - Code Search based on Context-aware Code Translation [9.346066889885684]
既存のテクニックは、ディープラーニングモデルを利用して、コードスニペットとクエリの埋め込み表現を構築する。
本稿では,コードスニペットを自然言語記述に変換する,文脈認識型コード翻訳手法を提案する。
我々は,1000クエリのCodeSearchNetコーパス上で,TranCSと呼ばれる手法の有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T12:45:47Z) - Contrastive Learning for Source Code with Structural and Functional
Properties [66.10710134948478]
本稿では,ソースコードの特徴に基づいて事前学習に焦点を当てた,新たな自己教師型モデルBOOSTを提案する。
私たちは、機能的に等価なコードを生成する自動化された構造誘導型コード変換アルゴリズムを採用しています。
私たちは、対照的な学習目標を通じて、機能的に等価なコードをより近く、異なるコードに近づける方法で、モデルをトレーニングします。
論文 参考訳(メタデータ) (2021-10-08T02:56:43Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z) - CoreGen: Contextualized Code Representation Learning for Commit Message
Generation [39.383390029545865]
コミットメッセージ生成(CoreGen)のためのコンテキスト適応型コード表現学習戦略を提案する。
ベンチマークデータセットの実験では、BLEU-4スコアの少なくとも28.18%の改善により、ベースラインモデルよりもモデルの有効性が向上した。
論文 参考訳(メタデータ) (2020-07-14T09:43:26Z) - Fact-based Text Editing [11.115292572080131]
textscFactEditorは、バッファ、ストリーム、メモリを使用して与えられた事実を参照することで、ドラフトテキストを編集する。
textscFactEditorは、エンコーダ-デコーダアプローチよりも高速に推論を実行する。
論文 参考訳(メタデータ) (2020-07-02T06:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。