論文の概要: Universal Representation for Code
- arxiv url: http://arxiv.org/abs/2103.03116v1
- Date: Thu, 4 Mar 2021 15:39:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-07 20:43:47.863624
- Title: Universal Representation for Code
- Title(参考訳): コードの普遍表現
- Authors: Linfeng Liu, Hoan Nguyen, George Karypis, Srinivasan Sengamedu
- Abstract要約: 新しいグラフベースのコード表現の上に効果的なプリトレーニング戦略を提示する。
我々は、グラフニューラルネットワークの表現を事前学習し、普遍的なコード特性を抽出する。
実世界の2つのデータセット - 30億のjavaメソッドと770万のpythonメソッドにまたがる。
- 参考スコア(独自算出の注目度): 8.978516631649276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from source code usually requires a large amount of labeled data.
Despite the possible scarcity of labeled data, the trained model is highly
task-specific and lacks transferability to different tasks. In this work, we
present effective pre-training strategies on top of a novel graph-based code
representation, to produce universal representations for code. Specifically,
our graph-based representation captures important semantics between code
elements (e.g., control flow and data flow). We pre-train graph neural networks
on the representation to extract universal code properties. The pre-trained
model then enables the possibility of fine-tuning to support various downstream
applications. We evaluate our model on two real-world datasets -- spanning over
30M Java methods and 770K Python methods. Through visualization, we reveal
discriminative properties in our universal code representation. By comparing
multiple benchmarks, we demonstrate that the proposed framework achieves
state-of-the-art results on method name prediction and code graph link
prediction.
- Abstract(参考訳): ソースコードから学ぶには、通常大量のラベル付きデータが必要です。
ラベル付きデータの不足の可能性にもかかわらず、トレーニングされたモデルはタスク固有であり、異なるタスクへの転送性に欠ける。
本稿では,新しいグラフベースのコード表現の上に,コードの普遍表現を生成するための効果的な事前学習戦略を提案する。
特に、私たちのグラフベースの表現は、コード要素(例えば、制御フローとデータフロー)間の重要なセマンティクスをキャプチャします。
我々は、グラフニューラルネットワークの表現を事前学習し、普遍的なコード特性を抽出する。
事前トレーニングされたモデルは、様々な下流アプリケーションをサポートするための微調整を可能にする。
実世界の2つのデータセット - 30億のjavaメソッドと770万のpythonメソッドにまたがる。
可視化により、普遍的なコード表現における識別特性を明らかにする。
複数のベンチマークを比較することで,提案フレームワークがメソッド名予測とコードグラフリンク予測の最先端結果を実現することを示す。
関連論文リスト
- The Trade-off between Universality and Label Efficiency of
Representations from Contrastive Learning [32.15608637930748]
2つのデシダラタの間にはトレードオフがあることを示し、同時に両方を達成できない可能性があることを示す。
我々は、理論データモデルを用いて分析を行い、より多様な事前学習データにより、異なるタスクに対してより多様な機能が得られる一方で、タスク固有の機能に重点を置いていないことを示す。
論文 参考訳(メタデータ) (2023-02-28T22:14:33Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - Improving Model Training via Self-learned Label Representations [5.969349640156469]
より洗練されたラベル表現は、通常のワンホット符号化よりも分類に適していることが示される。
分類タスクの学習中にラベル表現を同時に学習する適応ラベル付き学習(LwAL)アルゴリズムを提案する。
我々のアルゴリズムは無視可能な追加パラメータを導入し、計算オーバーヘッドを最小限に抑える。
論文 参考訳(メタデータ) (2022-09-09T21:10:43Z) - Neural Graph Matching for Pre-training Graph Neural Networks [72.32801428070749]
グラフニューラルネットワーク(GNN)は、構造データのモデリングにおいて強力な能力を示している。
GMPTと呼ばれる新しいグラフマッチングベースのGNN事前学習フレームワークを提案する。
提案手法は,完全自己指導型プレトレーニングと粗粒型プレトレーニングに適用できる。
論文 参考訳(メタデータ) (2022-03-03T09:53:53Z) - Cross-Domain Few-Shot Graph Classification [7.23389716633927]
本稿では,非等価な特徴空間を持つ領域間の数ショットグラフ分類の問題について検討する。
本稿では,3つの連続したグラフビュー,1つのコンテキストと2つのトポロジ的ビューを利用するアテンションベースグラフエンコーダを提案する。
提案するエンコーダは,メトリックベースのメタラーニングフレームワークと組み合わせることで,平均メタテストの分類精度が向上することを示す。
論文 参考訳(メタデータ) (2022-01-20T16:16:30Z) - Graph Convolution for Re-ranking in Person Re-identification [40.9727538382413]
類似度指標としてユークリッド距離を保ちながら,学習特徴を改善するグラフベースの再ランク付け手法を提案する。
ビデオ中の各トラックレットのプロファイルベクトルを生成するための簡易で効果的な手法が提案されている。
論文 参考訳(メタデータ) (2021-07-05T18:40:43Z) - A Robust and Generalized Framework for Adversarial Graph Embedding [73.37228022428663]
本稿では,AGE という逆グラフ埋め込みのための頑健なフレームワークを提案する。
AGEは、暗黙の分布から強化された負のサンプルとして偽の隣接ノードを生成する。
本フレームワークでは,3種類のグラフデータを扱う3つのモデルを提案する。
論文 参考訳(メタデータ) (2021-05-22T07:05:48Z) - deGraphCS: Embedding Variable-based Flow Graph for Neural Code Search [15.19181807445119]
ソースコードを変数ベースのフローグラフに変換する学習可能なDeGraph for Code Search(deGraphCSと呼ばれる)を提案する。
C言語で記述された41,152のコードスニペットを含む大規模なデータセットをGitHubから収集しています。
論文 参考訳(メタデータ) (2021-03-24T06:57:44Z) - Learning to map source code to software vulnerability using
code-as-a-graph [67.62847721118142]
セキュリティの観点からソースコードのニュアンス学習におけるグラフニューラルネットワークの適用性について検討する。
我々は,既存のコード・アズ・フォトや線形シーケンスの符号化手法よりも,脆弱性検出に有効なコード・アズ・グラフの符号化法を示す。
論文 参考訳(メタデータ) (2020-06-15T16:05:27Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z) - Evolving Losses for Unsupervised Video Representation Learning [91.2683362199263]
大規模未ラベル映像データから映像表現を学習する新しい手法を提案する。
提案した教師なし表現学習では,単一のRGBネットワークが実現し,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-02-26T16:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。