論文の概要: Towards Demystifying Dimensions of Source Code Embeddings
- arxiv url: http://arxiv.org/abs/2008.13064v3
- Date: Tue, 29 Sep 2020 00:19:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 17:02:34.588851
- Title: Towards Demystifying Dimensions of Source Code Embeddings
- Title(参考訳): ソースコード埋め込みの次元化に向けて
- Authors: Md Rafiqul Islam Rabin, Arjun Mukherjee, Omprakash Gnawali, Mohammad
Amin Alipour
- Abstract要約: Code2vecニューラルソースコードの埋め込み内容の理解を深めるための予備的な結果を示す。
以上の結果から,手工芸品は高次元のcode2vec 埋め込みに非常に近い性能が得られることが示唆された。
また、code2vecの埋め込みは、手作りの特徴よりも情報ゲインの少ない次元の除去に対して、より弾力性が高いことが判明した。
- 参考スコア(独自算出の注目度): 5.211235558099913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Source code representations are key in applying machine learning techniques
for processing and analyzing programs. A popular approach in representing
source code is neural source code embeddings that represents programs with
high-dimensional vectors computed by training deep neural networks on a large
volume of programs. Although successful, there is little known about the
contents of these vectors and their characteristics. In this paper, we present
our preliminary results towards better understanding the contents of code2vec
neural source code embeddings. In particular, in a small case study, we use the
code2vec embeddings to create binary SVM classifiers and compare their
performance with the handcrafted features. Our results suggest that the
handcrafted features can perform very close to the highly-dimensional code2vec
embeddings, and the information gains are more evenly distributed in the
code2vec embeddings compared to the handcrafted features. We also find that the
code2vec embeddings are more resilient to the removal of dimensions with low
information gains than the handcrafted features. We hope our results serve a
stepping stone toward principled analysis and evaluation of these code
representations.
- Abstract(参考訳): ソースコード表現は、プログラムの処理と解析に機械学習技術を適用する上で鍵となる。
ソースコードを表現する一般的なアプローチは、大量のプログラムでディープニューラルネットワークを訓練することで計算される高次元ベクトルを持つプログラムを表すニューラルネットワーク埋め込みである。
成功したが、これらのベクトルの内容とその特性についてはほとんど知られていない。
本稿では,code2vecニューラルソースコードの埋め込み内容をよりよく理解するための予備的な結果を示す。
特に、小さなケーススタディでは、code2vec埋め込みを使用してバイナリSVM分類子を作成し、それらのパフォーマンスと手作りの機能を比較する。
以上の結果から,手作り特徴は高次元のcode2vec 埋め込みに非常に近い性能を示し,手作り特徴よりも情報ゲインがcode2vec 埋め込みに均等に分散されていることが示唆された。
また、code2vec埋め込みは、手作りの機能よりも、少ない情報獲得で次元の除去にレジリエントであることが分かりました。
この結果が、これらのコード表現の原則分析と評価への一歩となることを願っています。
関連論文リスト
- How Far Have We Gone in Stripped Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T14:44:08Z) - Linear Codes for Hyperdimensional Computing [9.7902367664742]
ランダムな線形符号は、キー-値ストアを形成するために使用できるリッチなサブコード構造を提供する。
筆者らが開発しているフレームワークでは、ランダムな線形符号は単純なリカバリアルゴリズムを(束縛あるいは束縛された)構成表現に含めていることが示される。
論文 参考訳(メタデータ) (2024-03-05T19:18:44Z) - Enhancing Source Code Representations for Deep Learning with Static
Analysis [10.222207222039048]
本稿では,静的解析とバグレポートやデザインパターンなどのコンテキストを,ディープラーニングモデルのためのソースコード表現に統合する方法について検討する。
我々はASTNN(Abstract Syntax Tree-based Neural Network)法を用いて,バグレポートやデザインパターンから得られたコンテキスト情報を追加して拡張する。
提案手法はソースコードの表現と処理を改善し,タスク性能を向上させる。
論文 参考訳(メタデータ) (2024-02-14T20:17:04Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - Leveraging Generative AI: Improving Software Metadata Classification
with Generated Code-Comment Pairs [0.0]
ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。
本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。
本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-14T12:09:43Z) - A Neural Network Architecture for Program Understanding Inspired by
Human Behaviors [10.745648153049965]
本稿では,分割型グラフニューラルネットワークモデル PGNN を改良AST 上で提案する。
外部知識で生コードを変換し,情報抽出のための事前学習手法を適用する。
コード要約およびコードクローン検出タスクにおいて,PGNN-EKの優れた性能を示すため,広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-10T06:53:45Z) - GypSum: Learning Hybrid Representations for Code Summarization [21.701127410434914]
GypSumは、グラフアテンションニューラルネットワークと事前学習されたプログラミングと自然言語モデルを使用してハイブリッド表現を学習する、新しいディープラーニングモデルである。
本稿では,トランスフォーマーデコーダのエンコーダ-デコーダサブレイヤを変更して表現を融合させ,要約生成を容易にするデュアルコピー機構を提案する。
論文 参考訳(メタデータ) (2022-04-26T07:44:49Z) - LLC: Accurate, Multi-purpose Learnt Low-dimensional Binary Codes [55.32790803903619]
本稿では,クラスだけでなくインスタンスの低次元バイナリコード(LLC)を学習するための新しい手法を提案する。
アノテーション付き属性やラベルメタデータなど,副作用は一切不要です。
学習したコードは、クラスに対して直感的な分類法を発見することによって、データの中で本質的に重要な特徴をキャプチャすることを示した。
論文 参考訳(メタデータ) (2021-06-02T21:57:52Z) - Learning to map source code to software vulnerability using
code-as-a-graph [67.62847721118142]
セキュリティの観点からソースコードのニュアンス学習におけるグラフニューラルネットワークの適用性について検討する。
我々は,既存のコード・アズ・フォトや線形シーケンスの符号化手法よりも,脆弱性検出に有効なコード・アズ・グラフの符号化法を示す。
論文 参考訳(メタデータ) (2020-06-15T16:05:27Z) - Improved Code Summarization via a Graph Neural Network [96.03715569092523]
一般に、ソースコード要約技術はソースコードを入力として使用し、自然言語記述を出力する。
これらの要約を生成するために、ASTのデフォルト構造によくマッチするグラフベースのニューラルアーキテクチャを使用するアプローチを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:36:42Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。