論文の概要: Code Representation Learning with Pr\"ufer Sequences
- arxiv url: http://arxiv.org/abs/2111.07263v1
- Date: Sun, 14 Nov 2021 07:27:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 15:19:17.866033
- Title: Code Representation Learning with Pr\"ufer Sequences
- Title(参考訳): pr\"uferシーケンスを用いたコード表現学習
- Authors: Tenzin Jinpa and Yong Gao
- Abstract要約: コンピュータプログラムのソースコードの効果的なエンコーディングは、シーケンシャル・ツー・シーケンス・ディープ・ニューラルネットワークモデルの成功に不可欠である。
本稿では,コンピュータプログラムの抽象構文木 (AST) の Pr"ufer sequence を用いて,逐次表現スキームを設計することを提案する。
我々の表現は、学習例における語彙トークンによって伝達される信号を、自動的に選択的に活用できるディープラーニングモデルの開発を可能にする。
- 参考スコア(独自算出の注目度): 2.2463154358632464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An effective and efficient encoding of the source code of a computer program
is critical to the success of sequence-to-sequence deep neural network models
for tasks in computer program comprehension, such as automated code
summarization and documentation. A significant challenge is to find a
sequential representation that captures the structural/syntactic information in
a computer program and facilitates the training of the learning models.
In this paper, we propose to use the Pr\"ufer sequence of the Abstract Syntax
Tree (AST) of a computer program to design a sequential representation scheme
that preserves the structural information in an AST. Our representation makes
it possible to develop deep-learning models in which signals carried by lexical
tokens in the training examples can be exploited automatically and selectively
based on their syntactic role and importance. Unlike other recently-proposed
approaches, our representation is concise and lossless in terms of the
structural information of the AST. Empirical studies on real-world benchmark
datasets, using a sequence-to-sequence learning model we designed for code
summarization, show that our Pr\"ufer-sequence-based representation is indeed
highly effective and efficient, outperforming significantly all the
recently-proposed deep-learning models we used as the baseline models.
- Abstract(参考訳): コンピュータプログラムのソースコードの効率的かつ効率的なエンコーディングは、自動コード要約やドキュメントなど、コンピュータプログラム理解におけるタスクのシーケンスからシーケンスまでのディープニューラルネットワークモデルの成功に不可欠である。
重要な課題は、コンピュータプログラムの構造/構文情報をキャプチャし、学習モデルのトレーニングを容易にする逐次表現を見つけることである。
本稿では,コンピュータプログラムの抽象構文木(ast)のpr\"uferシーケンスを用いて,構造情報をastに保存する逐次表現スキームを設計することを提案する。
この表現は,学習例の語彙トークンによって伝達される信号が,その構文的役割と重要性に基づいて,自動的に選択的に活用できるディープラーニングモデルの開発を可能にする。
最近提案された他のアプローチとは異なり、ASTの構造情報に関して、我々の表現は簡潔でロスレスである。
コード要約のために設計したシーケンスからシーケンスへの学習モデルを用いて、実世界のベンチマークデータセットに関する実証研究により、我々のpr\"ufer-sequenceベースの表現は確かに非常に効果的で効率的であり、ベースラインモデルとして最近提示されたすべてのディープラーニングモデルよりもかなり優れています。
関連論文リスト
- The Graph's Apprentice: Teaching an LLM Low Level Knowledge for Circuit Quality Estimation [34.37154877681809]
We introduced VeriDistill, the first end-to-end machine learning model that direct process raw Verilog code to predict circuit quality-of-result metrics。
本モデルでは,LLMに基づく低レベル回路インサイトを予測器に転送する,新しい知識蒸留法を採用している。
実験では、VeriDistillは大規模なVerilogデータセット上で最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-10-30T04:20:10Z) - Abstract Syntax Tree for Programming Language Understanding and
Representation: How Far Are We? [23.52632194060246]
プログラミング言語の理解と表現(コード表現学習)は、ソフトウェア工学において常にホットで挑戦的なタスクである。
抽象構文木(AST)は、ソースコードの構文情報を表現し、コード表現学習で広く使われている。
コードトークンシーケンス(略してToken)ベースのコード表現とASTベースのコード表現でトレーニングされた3種類のコード関連タスクのパフォーマンスを比較した。
論文 参考訳(メタデータ) (2023-12-01T08:37:27Z) - Sparse Attention-Based Neural Networks for Code Classification [15.296053323327312]
コード分類のためのスパース注意型ニューラルネットワーク(SACC)を提案する。
最初のステップでは、ソースコードは構文解析と前処理を行う。
サブツリーの符号化されたシーケンスは、分類のためにスパースアテンション機構を組み込んだTransformerモデルに入力される。
論文 参考訳(メタデータ) (2023-11-11T14:07:12Z) - Learning ECG signal features without backpropagation [0.0]
時系列型データの表現を生成する新しい手法を提案する。
この方法は理論物理学の考えに頼り、データ駆動方式でコンパクトな表現を構築する。
本稿では,ECG信号分類の課題に対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2023-07-04T21:35:49Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。
具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文 参考訳(メタデータ) (2022-12-12T15:40:30Z) - Adaptive Convolutional Dictionary Network for CT Metal Artifact
Reduction [62.691996239590125]
本稿では,金属人工物削減のための適応畳み込み辞書ネットワーク(ACDNet)を提案する。
我々のACDNetは、トレーニングデータを介して、アーティファクトフリーCT画像の事前を自動で学習し、入力されたCT画像ごとに表現カーネルを適応的に調整することができる。
本手法は,モデルに基づく手法の明確な解釈可能性を継承し,学習に基づく手法の強力な表現能力を維持する。
論文 参考訳(メタデータ) (2022-05-16T06:49:36Z) - Representation Learning for Sequence Data with Deep Autoencoding
Predictive Components [96.42805872177067]
本稿では,シーケンスデータの有用な表現が潜在空間における単純な構造を示すべきという直感に基づく,シーケンスデータの自己教師型表現学習法を提案する。
我々は,過去と将来のウィンドウ間の相互情報である潜在特徴系列の予測情報を最大化することにより,この潜時構造を奨励する。
提案手法は,ノイズの多い動的システムの潜時空間を復元し,タスク予測のための予測特徴を抽出し,エンコーダを大量の未ラベルデータで事前訓練する場合に音声認識を改善する。
論文 参考訳(メタデータ) (2020-10-07T03:34:01Z) - DRTS Parsing with Structure-Aware Encoding and Decoding [28.711318411470497]
最先端のパフォーマンスは、ニューラルシーケンス・ツー・シーケンスモデルによって達成できる。
構造情報を統合するために,エンコーダとデコーダの両フェーズにおける構造認識モデルを提案する。
論文 参考訳(メタデータ) (2020-05-14T12:09:23Z) - Einsum Networks: Fast and Scalable Learning of Tractable Probabilistic
Circuits [99.59941892183454]
我々は,PC用の新しい実装設計であるEinsum Networks (EiNets)を提案する。
中心となるのは、E EiNets は単一のモノリシックな einsum-operation に多数の算術演算を組み合わせている。
本稿では,PCにおける予測最大化(EM)の実装を,自動微分を利用した簡易化が可能であることを示す。
論文 参考訳(メタデータ) (2020-04-13T23:09:15Z) - Improved Code Summarization via a Graph Neural Network [96.03715569092523]
一般に、ソースコード要約技術はソースコードを入力として使用し、自然言語記述を出力する。
これらの要約を生成するために、ASTのデフォルト構造によくマッチするグラフベースのニューラルアーキテクチャを使用するアプローチを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。