論文の概要: Topical: Learning Repository Embeddings from Source Code using Attention
- arxiv url: http://arxiv.org/abs/2208.09495v4
- Date: Sat, 4 Nov 2023 16:56:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 01:41:53.428074
- Title: Topical: Learning Repository Embeddings from Source Code using Attention
- Title(参考訳): トピック: 注意力を用いたソースコードからの学習リポジトリ埋め込み
- Authors: Agathe Lherondelle, Varun Babbar, Yash Satsangi, Fran Silavong,
Shaltiel Eloul, Sean Moran
- Abstract要約: 本稿では,リポジトリレベルの埋め込みのための新しいディープニューラルネットワークであるTopicalを提案する。
attentionメカニズムはソースコード、フル依存グラフ、スクリプトレベルのテキストデータからリポジトリレベルの表現を生成する。
- 参考スコア(独自算出の注目度): 3.110769442802435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Topical, a novel deep neural network for repository level
embeddings. Existing methods, reliant on natural language documentation or
naive aggregation techniques, are outperformed by Topical's utilization of an
attention mechanism. This mechanism generates repository-level representations
from source code, full dependency graphs, and script level textual data.
Trained on publicly accessible GitHub repositories, Topical surpasses multiple
baselines in tasks such as repository auto-tagging, highlighting the attention
mechanism's efficacy over traditional aggregation methods. Topical also
demonstrates scalability and efficiency, making it a valuable contribution to
repository-level representation computation. For further research, the
accompanying tools, code, and training dataset are provided at:
https://github.com/jpmorganchase/topical.
- Abstract(参考訳): 本稿では,リポジトリレベルの埋め込みのための新しいディープニューラルネットワークである topical を提案する。
自然言語ドキュメンテーションやナイーブアグリゲーション技術に依存した既存の手法は、トピックルが注意の仕組みを活用していることより優れている。
このメカニズムはソースコード、フル依存グラフ、スクリプトレベルのテキストデータからリポジトリレベルの表現を生成する。
公開アクセス可能なgithubリポジトリでトレーニングされた topical は,リポジトリの自動タグ付けなどのタスクにおいて,複数のベースラインを越えたものだ。
Topicalはスケーラビリティと効率性を実証し、リポジトリレベルの表現計算に価値ある貢献をする。
さらなる研究のために、関連するツール、コード、トレーニングデータセットがhttps://github.com/jpmorganchase/topicalで提供されている。
関連論文リスト
- Prospector Heads: Generalized Feature Attribution for Large Models &
Data [63.33062996732212]
本稿では,特徴帰属のための説明に基づく手法の,効率的かつ解釈可能な代替手段であるプロスペクタヘッドを紹介する。
入力データにおけるクラス固有のパターンの解釈と発見を、プロファイラヘッドがいかに改善できるかを実証する。
論文 参考訳(メタデータ) (2024-02-18T23:01:28Z) - Enhancing Source Code Representations for Deep Learning with Static
Analysis [10.222207222039048]
本稿では,静的解析とバグレポートやデザインパターンなどのコンテキストを,ディープラーニングモデルのためのソースコード表現に統合する方法について検討する。
我々はASTNN(Abstract Syntax Tree-based Neural Network)法を用いて,バグレポートやデザインパターンから得られたコンテキスト情報を追加して拡張する。
提案手法はソースコードの表現と処理を改善し,タスク性能を向上させる。
論文 参考訳(メタデータ) (2024-02-14T20:17:04Z) - CodePrompt: Improving Source Code-Related Classification with Knowledge
Features through Prompt Learning [12.527667373513395]
既存のアプローチでは、ソースコードと関連するテキストの両方に含まれる豊富な知識を活用できないため、精度が低下する可能性がある。
本稿では,事前学習モデルからリコールされた豊富な知識を,学習の迅速化とソースコード関連分類タスク改善のためのアテンション機構によって活用する,新しいアプローチであるCodePromptを提案する。
論文 参考訳(メタデータ) (2024-01-10T20:49:59Z) - Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。
この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。
既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文 参考訳(メタデータ) (2022-11-15T19:42:27Z) - MORE: A Metric Learning Based Framework for Open-domain Relation
Extraction [25.149590577718996]
オープンリレーション抽出(OpenRE)は、オープンドメインコーパスからリレーションスキームを抽出するタスクである。
我々はMORE(Metric Learning-based Open Relation extract)という新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-01T07:51:20Z) - HRKD: Hierarchical Relational Knowledge Distillation for Cross-domain
Language Model Compression [53.90578309960526]
大規模事前学習言語モデル(PLM)は、従来のニューラルネットワーク手法と比較して圧倒的な性能を示している。
階層的および領域的関係情報の両方を抽出する階層的関係知識蒸留法(HRKD)を提案する。
論文 参考訳(メタデータ) (2021-10-16T11:23:02Z) - Capturing Structural Locality in Non-parametric Language Models [85.94669097485992]
非パラメトリック言語モデルに局所性情報を追加するための,単純かつ効果的なアプローチを提案する。
Javaソースコードとウィキペディアテキストという2つの異なる領域の実験では、局所性がモデルの有効性を向上させることが示されている。
論文 参考訳(メタデータ) (2021-10-06T15:53:38Z) - Improve Learning from Crowds via Generative Augmentation [36.38523364192051]
クラウドソーシングは、教師付き機械学習のための効率的なラベル収集スキーマを提供する。
アノテーションのコストを制御するため、クラウドソースされたデータの各インスタンスは通常、少数のアノテーションによって注釈付けされる。
これにより、余分な問題が発生し、そのようなデータでトレーニングされた機械学習モデルの品質が制限される。
論文 参考訳(メタデータ) (2021-07-22T04:14:30Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。