論文の概要: TreeCaps: Tree-Based Capsule Networks for Source Code Processing
- arxiv url: http://arxiv.org/abs/2009.09777v4
- Date: Mon, 14 Dec 2020 15:12:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 21:10:55.572298
- Title: TreeCaps: Tree-Based Capsule Networks for Source Code Processing
- Title(参考訳): TreeCaps: ソースコード処理のためのツリーベースのカプセルネットワーク
- Authors: Nghi D. Q. Bui, Yijun Yu, Lingxiao Jiang
- Abstract要約: 本研究では、カプセルネットワークとツリーベースの畳み込みニューラルネットワークを融合させることにより、新しい学習手法であるTreeCapsを提案する。
TreeCapsは、これらのセマンティック保存プログラム変換に耐える上で、最も堅牢であることに気付きました。
- 参考スコア(独自算出の注目度): 28.61567319928316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently program learning techniques have been proposed to process source
code based on syntactical structures (e.g., Abstract Syntax Trees) and/or
semantic information (e.g., Dependency Graphs). Although graphs may be better
at capturing various viewpoints of code semantics than trees, constructing
graph inputs from code needs static code semantic analysis that may not be
accurate and introduces noise during learning. Although syntax trees are
precisely defined according to the language grammar and easier to construct and
process than graphs, previous tree-based learning techniques have not been able
to learn semantic information from trees to achieve better accuracy than
graph-based techniques. We propose a new learning technique, named TreeCaps, by
fusing together capsule networks with tree-based convolutional neural networks,
to achieve learning accuracy higher than existing graph-based techniques while
it is based only on trees. TreeCaps introduces novel variable-to-static routing
algorithms into the capsule networks to compensate for the loss of previous
routing algorithms. Aside from accuracy, we also find that TreeCaps is the most
robust to withstand those semantic-preserving program transformations that
change code syntax without modifying the semantics. Evaluated on a large number
of Java and C/C++ programs, TreeCaps models outperform prior deep learning
models of program source code, in terms of both accuracy and robustness for
program comprehension tasks such as code functionality classification and
function name prediction
- Abstract(参考訳): 近年、構文構造(抽象構文木など)や意味情報(依存性グラフなど)に基づいてソースコードを処理するプログラム学習技術が提案されている。
グラフは木よりもコードセマンティクスの様々な視点を捉えるのに優れているかもしれないが、コードからのグラフインプットを構築するには静的コードセマンティクス分析が必要である。
構文木は言語文法に従って正確に定義されており、グラフよりも構築や処理が容易であるが、従来の木に基づく学習手法では木から意味情報を学習することができず、グラフベースの手法よりも精度が高い。
そこで,本研究では,カプセルネットワークを木ベース畳み込みニューラルネットワークと組み合わせることで,既存のグラフベース手法よりも高い学習精度を実現する新しい学習手法であるtreecapsを提案する。
TreeCapsはカプセルネットワークに新しい可変-静的ルーティングアルゴリズムを導入し、以前のルーティングアルゴリズムの損失を補う。
正確性以外には、セマンティクスを変更することなくコード構文を変更するセマンティクス保存プログラム変換に耐える上で、TreeCapsが最も堅牢であることも分かっています。
多数のjavaおよびc/c++プログラムで評価されたtreecapsモデルは、コード機能分類や関数名予測といったプログラム理解タスクの正確性と堅牢性の観点から、プログラムソースコードの事前ディープラーニングモデルよりも優れています。
関連論文リスト
- Joint Language Semantic and Structure Embedding for Knowledge Graph
Completion [66.15933600765835]
本稿では,知識三重項の自然言語記述と構造情報とを共同で組み込むことを提案する。
本手法は,学習済み言語モデルを微調整することで,完了作業のための知識グラフを埋め込む。
各種知識グラフベンチマーク実験により,本手法の最先端性能を実証した。
論文 参考訳(メタデータ) (2022-09-19T02:41:02Z) - Incorporating Constituent Syntax for Coreference Resolution [50.71868417008133]
本稿では,構成構文構造をグラフベースで組み込む手法を提案する。
また、高次近傍情報を利用して構成木に富んだ構造をエンコードすることも検討する。
on the English and Chinese parts of OntoNotes 5.0 benchmark shows that our proposed model beats a strong baseline or a new-of-the-art performance。
論文 参考訳(メタデータ) (2022-02-22T07:40:42Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Structural Optimization Makes Graph Classification Simpler and Better [5.770986723520119]
モデル学習プロセスを簡素化しつつ,グラフ分類性能の向上の可能性を検討する。
構造情報アセスメントの進歩に触発されて、グラフから木をコードするデータサンプルを最適化する。
本稿では,木カーネルと畳み込みネットワークにこのスキームを実装し,グラフ分類を行う。
論文 参考訳(メタデータ) (2021-09-05T08:54:38Z) - Recursive Tree Grammar Autoencoders [3.791857415239352]
本稿では,木をボトムアップ文法で符号化し,木を木文法で復号する,新しいオートエンコーダ手法を提案する。
提案手法は, 4つのベンチマークデータセットにおいて, 自動符号化誤差, トレーニング時間, 最適化スコアを改善することを実験的に示す。
論文 参考訳(メタデータ) (2020-12-03T17:37:25Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z) - MurTree: Optimal Classification Trees via Dynamic Programming and Search [61.817059565926336]
動的プログラミングと探索に基づいて最適な分類木を学習するための新しいアルゴリズムを提案する。
当社のアプローチでは,最先端技術が必要とする時間のごく一部しか使用せず,数万のインスタンスでデータセットを処理することが可能です。
論文 参考訳(メタデータ) (2020-07-24T17:06:55Z) - Learning to map source code to software vulnerability using
code-as-a-graph [67.62847721118142]
セキュリティの観点からソースコードのニュアンス学習におけるグラフニューラルネットワークの適用性について検討する。
我々は,既存のコード・アズ・フォトや線形シーケンスの符号化手法よりも,脆弱性検出に有効なコード・アズ・グラフの符号化法を示す。
論文 参考訳(メタデータ) (2020-06-15T16:05:27Z) - Tree Echo State Autoencoders with Grammars [3.7280152311394827]
木の非ベクトル的かつ離散的な性質は、木形式の出力を持つ関数を構築するのを難しくする。
既存のオートエンコーディングアプローチは、ツリードメインの特定の文法構造を考慮に入れない。
本研究では,木文法でガイドされる木エコー状態オートエンコーダ(TES-AE)を提案する。
論文 参考訳(メタデータ) (2020-04-19T18:04:33Z) - Graph-to-Tree Neural Networks for Learning Structured Input-Output
Translation with Applications to Semantic Parsing and Math Word Problem [33.610361579567794]
本稿では,グラフエンコーダと階層木デコーダからなる新しいグラフからトレーニューラルネットワークを提案し,グラフ構造入力を符号化し,木構造出力を復号する。
我々の実験は、Graph2Treeモデルがこれらのタスクにおける他の最先端モデルの性能より優れているか、あるいは一致していることを示した。
論文 参考訳(メタデータ) (2020-04-07T17:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。