論文の概要: Topical: Learning Repository Embeddings from Source Code using Attention
- arxiv url: http://arxiv.org/abs/2208.09495v1
- Date: Fri, 19 Aug 2022 18:13:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:59:46.023290
- Title: Topical: Learning Repository Embeddings from Source Code using Attention
- Title(参考訳): トピック: 注意力を用いたソースコードからの学習リポジトリ埋め込み
- Authors: Agathe Lherondelle, Yash Satsangi, Fran Silavong, Shaltiel Eloul, Sean
Moran
- Abstract要約: 本稿では,GitHubリポジトリのリポジトリレベルの埋め込みをソースコードから直接生成するディープニューラルネットワークを提案する。
リポジトリレベルの表現を計算するために、Topicalは、公開されているGitHubリポジトリのデータセット上で、リポジトリに関連するトピックを予測するように訓練されている。
- 参考スコア(独自算出の注目度): 1.6799377888527687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning on source code (MLOnCode) promises to transform how software
is delivered. By mining the context and relationship between software
artefacts, MLOnCode augments the software developers capabilities with code
auto-generation, code recommendation, code auto-tagging and other data-driven
enhancements. For many of these tasks a script level representation of code is
sufficient, however, in many cases a repository level representation that takes
into account various dependencies and repository structure is imperative, for
example, auto-tagging repositories with topics or auto-documentation of
repository code etc. Existing methods for computing repository level
representations suffer from (a) reliance on natural language documentation of
code (for example, README files) (b) naive aggregation of method/script-level
representation, for example, by concatenation or averaging. This paper
introduces Topical a deep neural network to generate repository level
embeddings of publicly available GitHub code repositories directly from source
code. Topical incorporates an attention mechanism that projects the source
code, the full dependency graph and the script level textual information into a
dense repository-level representation. To compute the repository-level
representations, Topical is trained to predict the topics associated with a
repository, on a dataset of publicly available GitHub repositories that were
crawled along with their ground truth topic tags. Our experiments show that the
embeddings computed by Topical are able to outperform multiple baselines,
including baselines that naively combine the method-level representations
through averaging or concatenation at the task of repository auto-tagging.
- Abstract(参考訳): ソースコード(MLOnCode)上の機械学習は、ソフトウェアの提供方法を変えることを約束する。
ソフトウェアアーチファクト間のコンテキストと関係をマイニングすることで、mloncodeは、コード自動生成、コードレコメンデーション、コード自動タグ付け、その他のデータ駆動機能拡張によって、ソフトウェア開発機能を強化する。
これらのタスクの多くにおいて、コードのスクリプトレベルの表現は十分であるが、多くの場合、さまざまな依存関係とリポジトリ構造を考慮したリポジトリレベルの表現は、例えば、トピックによるリポジトリの自動タグ付けや、リポジトリコードの自動文書化など、必須である。
リポジトリレベルの表現を計算するための既存の方法
(a)コード(例えば、readmeファイル)の自然言語ドキュメンテーションへの依存
b) 結合や平均化によるメソッド/スクリプトレベルの表現のナイーブな集約。
本稿では,GitHubリポジトリのリポジトリレベルの埋め込みをソースコードから直接生成するディープニューラルネットワークTopicalを紹介する。
Topicalにはソースコード、フル依存グラフ、スクリプトレベルのテキスト情報を高密度なリポジトリレベルの表現に投影するアテンションメカニズムが含まれている。
リポジトリレベルの表現を計算するために、 topicalは、公開利用可能なgithubリポジトリのデータセット上で、リポジトリに関連するトピックを予測するように訓練されている。
実験の結果,Topicalが計算した埋め込みは,リポジトリの自動タグ付けタスクにおける平均化や結合によって,メソッドレベルの表現を直感的に組み合わせたベースラインなど,複数のベースラインよりも優れていることがわかった。
関連論文リスト
- Prospector Heads: Generalized Feature Attribution for Large Models &
Data [63.33062996732212]
本稿では,特徴帰属のための説明に基づく手法の,効率的かつ解釈可能な代替手段であるプロスペクタヘッドを紹介する。
入力データにおけるクラス固有のパターンの解釈と発見を、プロファイラヘッドがいかに改善できるかを実証する。
論文 参考訳(メタデータ) (2024-02-18T23:01:28Z) - Enhancing Source Code Representations for Deep Learning with Static
Analysis [10.222207222039048]
本稿では,静的解析とバグレポートやデザインパターンなどのコンテキストを,ディープラーニングモデルのためのソースコード表現に統合する方法について検討する。
我々はASTNN(Abstract Syntax Tree-based Neural Network)法を用いて,バグレポートやデザインパターンから得られたコンテキスト情報を追加して拡張する。
提案手法はソースコードの表現と処理を改善し,タスク性能を向上させる。
論文 参考訳(メタデータ) (2024-02-14T20:17:04Z) - CodePrompt: Improving Source Code-Related Classification with Knowledge
Features through Prompt Learning [12.527667373513395]
既存のアプローチでは、ソースコードと関連するテキストの両方に含まれる豊富な知識を活用できないため、精度が低下する可能性がある。
本稿では,事前学習モデルからリコールされた豊富な知識を,学習の迅速化とソースコード関連分類タスク改善のためのアテンション機構によって活用する,新しいアプローチであるCodePromptを提案する。
論文 参考訳(メタデータ) (2024-01-10T20:49:59Z) - Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。
この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。
既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文 参考訳(メタデータ) (2022-11-15T19:42:27Z) - MORE: A Metric Learning Based Framework for Open-domain Relation
Extraction [25.149590577718996]
オープンリレーション抽出(OpenRE)は、オープンドメインコーパスからリレーションスキームを抽出するタスクである。
我々はMORE(Metric Learning-based Open Relation extract)という新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-01T07:51:20Z) - HRKD: Hierarchical Relational Knowledge Distillation for Cross-domain
Language Model Compression [53.90578309960526]
大規模事前学習言語モデル(PLM)は、従来のニューラルネットワーク手法と比較して圧倒的な性能を示している。
階層的および領域的関係情報の両方を抽出する階層的関係知識蒸留法(HRKD)を提案する。
論文 参考訳(メタデータ) (2021-10-16T11:23:02Z) - Capturing Structural Locality in Non-parametric Language Models [85.94669097485992]
非パラメトリック言語モデルに局所性情報を追加するための,単純かつ効果的なアプローチを提案する。
Javaソースコードとウィキペディアテキストという2つの異なる領域の実験では、局所性がモデルの有効性を向上させることが示されている。
論文 参考訳(メタデータ) (2021-10-06T15:53:38Z) - Improve Learning from Crowds via Generative Augmentation [36.38523364192051]
クラウドソーシングは、教師付き機械学習のための効率的なラベル収集スキーマを提供する。
アノテーションのコストを制御するため、クラウドソースされたデータの各インスタンスは通常、少数のアノテーションによって注釈付けされる。
これにより、余分な問題が発生し、そのようなデータでトレーニングされた機械学習モデルの品質が制限される。
論文 参考訳(メタデータ) (2021-07-22T04:14:30Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。