論文の概要: Learning to Represent Programs with Code Hierarchies
- arxiv url: http://arxiv.org/abs/2205.15479v1
- Date: Tue, 31 May 2022 00:16:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 15:15:56.968965
- Title: Learning to Represent Programs with Code Hierarchies
- Title(参考訳): コード階層によるプログラム表現の学習
- Authors: Minh Nguyen, Nghi D. Q. Bui
- Abstract要約: コード階層(Code Hierarchy)としてコードを表現する方法を提案する。
そして,各レベルの表現を処理するために,新しいネットワークアーキテクチャであるHIRGASTを設計する。
提案手法は,3つの下流タスクにおいて,他のベースラインを著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 12.290010554180613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When used to process source code, graph neural networks have been shown to
produce impressive results for a wide range of software engineering tasks.
Existing techniques, however, still have two issues: (1) long-term dependency
and (2) different code components are treated as equals when they should not
be. To address these issues, we propose a method for representing code as a
hierarchy (Code Hierarchy), in which different code components are represented
separately at various levels of granularity. Then, to process each level of
representation, we design a novel network architecture, HIRGAST, which combines
the strengths of Heterogeneous Graph Transformer Networks and Tree-based
Convolutional Neural Networks to learn Abstract Syntax Trees enriched with code
dependency information. We also propose a novel pretraining objective called
Missing Subtree Prediction to complement our Code Hierarchy. The evaluation
results show that our method significantly outperforms other baselines in three
downstream tasks: any-code completion, code classification, and code clone
detection.
- Abstract(参考訳): ソースコードの処理に使用すると、グラフニューラルネットワークは、幅広いソフトウェアエンジニアリングタスクに対して印象的な結果をもたらすことが示されている。
しかし、既存の技術には依然として2つの問題がある。(1) 長期依存と(2) 異なるコードコンポーネントは、そうでない場合は等しく扱われる。
これらの問題に対処するため,我々は,様々な粒度で異なるコードコンポーネントを別々に表現する階層(コード階層)としてコードを表現する手法を提案する。
そして、各レベルの表現を処理するために、ヘテロジニアスグラフトランスフォーマーネットワークとツリーベースの畳み込みニューラルネットワークの強みを組み合わせた新しいネットワークアーキテクチャ、HIRGASTを設計し、コード依存情報に富んだ抽象構文木を学習する。
また,コード階層を補完するために,欠落部分木予測と呼ばれる新しい事前学習目標を提案する。
評価の結果,提案手法は,任意のコード補完,コード分類,コードクローン検出という3つの下流タスクにおいて,他のベースラインよりも有意に優れていた。
関連論文リスト
- A TextGCN-Based Decoding Approach for Improving Remote Sensing Image Captioning [0.15346678870160887]
テキストグラフ畳み込みネットワーク(TextGCN)と多層LSTMをデプロイする新しいエンコーダデコーダ構成を提案する。
TextGCNによって生成された埋め込みは、文レベルとコーパスレベルの両方で単語間の意味的関係をキャプチャすることでデコーダの理解を高める。
我々は,他の最先端のエンコーダ・デコーダフレームワークに対して,我々のアプローチを広範囲に評価する。
論文 参考訳(メタデータ) (2024-09-27T06:12:31Z) - Outline, Then Details: Syntactically Guided Coarse-To-Fine Code
Generation [61.50286000143233]
ChainCoderは、Pythonコードを段階的に生成するプログラム合成言語モデルである。
自然言語記述と構文的に整合したI/Oデータサンプルを共同で符号化するために、カスタマイズされたトランスフォーマーアーキテクチャを利用する。
論文 参考訳(メタデータ) (2023-04-28T01:47:09Z) - CSSAM:Code Search via Attention Matching of Code Semantics and
Structures [8.547332796736107]
本稿では,CSSAM (Code Semantics and Structures Attention Matching) というコード検索モデルを提案する。
意味的および構造的マッチング機構を導入することにより、CSSAMは多次元コードの特徴を効果的に抽出し、融合する。
残りのインタラクションを活用することで、マッチングモジュールはより多くのコードセマンティクスと記述的機能を保持するように設計されている。
論文 参考訳(メタデータ) (2022-08-08T05:45:40Z) - Hierarchical Sketch Induction for Paraphrase Generation [79.87892048285819]
本稿では、高密度符号化の分解を学習するHRQ-VAE(Hierarchical Refinement Quantized Variational Autoencoders)を紹介する。
HRQ-VAEを用いて、入力文の構文形式を階層化の経路としてエンコードすることで、テスト時の構文スケッチをより容易に予測できる。
論文 参考訳(メタデータ) (2022-03-07T15:28:36Z) - Improving Code Summarization with Block-wise Abstract Syntax Tree
Splitting [15.28941592388958]
ソースコードの構文構造を表現した抽象構文木(AST)がコード要約の生成をガイドするために組み込まれている。
既存のastベースのメソッドはトレーニングが困難で、不適切なコード要約を生成する。
ASTのリッチツリー形式の構文構造をフル活用したBlock-wise Abstract Syntax Tree Splitting法(BASTS)を提案する。
論文 参考訳(メタデータ) (2021-03-14T05:04:06Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z) - EfficientFCN: Holistically-guided Decoding for Semantic Segmentation [49.27021844132522]
最先端セマンティックセマンティックセグメンテーションアルゴリズムは主に拡張されたFully Convolutional Networks (DilatedFCN)に基づいている
本稿では,拡張畳み込みのないイメージネット事前学習ネットワークをバックボーンとする,効率的なFCNを提案する。
このようなフレームワークは、計算コストの1/3しか持たない最先端の手法に比べて、同等またはそれ以上の性能を達成する。
論文 参考訳(メタデータ) (2020-08-24T14:48:23Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。