論文の概要: Topical: Learning Repository Embeddings from Source Code using Attention
- arxiv url: http://arxiv.org/abs/2208.09495v2
- Date: Fri, 7 Jul 2023 13:44:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 16:03:07.160722
- Title: Topical: Learning Repository Embeddings from Source Code using Attention
- Title(参考訳): トピック: 注意力を用いたソースコードからの学習リポジトリ埋め込み
- Authors: Agathe Lherondelle, Varun Babbar, Yash Satsangi, Fran Silavong,
Shaltiel Eloul, Sean Moran
- Abstract要約: 本稿では,GitHubリポジトリのリポジトリレベルの埋め込みをソースコードから直接生成するディープニューラルネットワークを提案する。
リポジトリレベルの表現を計算するために、Topicalは、公開されているGitHubリポジトリのデータセット上で、リポジトリに関連するトピックを予測するように訓練されている。
- 参考スコア(独自算出の注目度): 1.565870461096057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning on source code (MLOnCode) promises to transform how software
is delivered. By mining the context and relationship between software
artefacts, MLOnCode augments the software developers capabilities with code
auto-generation, code recommendation, code auto-tagging and other data-driven
enhancements. For many of these tasks a script level representation of code is
sufficient, however, in many cases a repository level representation that takes
into account various dependencies and repository structure is imperative, for
example, auto-tagging repositories with topics or auto-documentation of
repository code etc. Existing methods for computing repository level
representations suffer from (a) reliance on natural language documentation of
code (for example, README files) (b) naive aggregation of method/script-level
representation, for example, by concatenation or averaging. This paper
introduces Topical a deep neural network to generate repository level
embeddings of publicly available GitHub code repositories directly from source
code. Topical incorporates an attention mechanism that projects the source
code, the full dependency graph and the script level textual information into a
dense repository-level representation. To compute the repository-level
representations, Topical is trained to predict the topics associated with a
repository, on a dataset of publicly available GitHub repositories that were
crawled along with their ground truth topic tags. Our experiments show that the
embeddings computed by Topical are able to outperform multiple baselines,
including baselines that naively combine the method-level representations
through averaging or concatenation at the task of repository auto-tagging.
- Abstract(参考訳): ソースコード(MLOnCode)上の機械学習は、ソフトウェアの提供方法を変えることを約束する。
ソフトウェアアーチファクト間のコンテキストと関係をマイニングすることで、mloncodeは、コード自動生成、コードレコメンデーション、コード自動タグ付け、その他のデータ駆動機能拡張によって、ソフトウェア開発機能を強化する。
これらのタスクの多くにおいて、コードのスクリプトレベルの表現は十分であるが、多くの場合、さまざまな依存関係とリポジトリ構造を考慮したリポジトリレベルの表現は、例えば、トピックによるリポジトリの自動タグ付けや、リポジトリコードの自動文書化など、必須である。
リポジトリレベルの表現を計算するための既存の方法
(a)コード(例えば、readmeファイル)の自然言語ドキュメンテーションへの依存
b) 結合や平均化によるメソッド/スクリプトレベルの表現のナイーブな集約。
本稿では,GitHubリポジトリのリポジトリレベルの埋め込みをソースコードから直接生成するディープニューラルネットワークTopicalを紹介する。
Topicalにはソースコード、フル依存グラフ、スクリプトレベルのテキスト情報を高密度なリポジトリレベルの表現に投影するアテンションメカニズムが含まれている。
リポジトリレベルの表現を計算するために、 topicalは、公開利用可能なgithubリポジトリのデータセット上で、リポジトリに関連するトピックを予測するように訓練されている。
実験の結果,Topicalが計算した埋め込みは,リポジトリの自動タグ付けタスクにおける平均化や結合によって,メソッドレベルの表現を直感的に組み合わせたベースラインなど,複数のベースラインよりも優れていることがわかった。
関連論文リスト
- Topological Methods in Machine Learning: A Tutorial for Practitioners [4.297070083645049]
トポロジカル機械学習(TML)は、代数的トポロジの技法を利用して複雑なデータ構造を分析する分野である。
このチュートリアルは、2つの重要なTMLテクニック、永続的ホモロジーとMapperアルゴリズムの包括的な紹介を提供する。
アクセシビリティを高めるために、私たちはデータ中心のアプローチを採用し、読者はこれらのテクニックを関連するタスクに適用したハンズオン体験を得ることができる。
論文 参考訳(メタデータ) (2024-09-04T17:44:52Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
リポジトリレベルのコード生成を評価するために設計された新しいベンチマークである textbfmethodnamews を提案する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - On The Importance of Reasoning for Context Retrieval in Repository-Level Code Editing [82.96523584351314]
我々は、コンテキスト検索のタスクをリポジトリレベルのコード編集パイプラインの他のコンポーネントと分離する。
我々は、推論が収集された文脈の精度を向上させるのに役立っているが、それでもその十分性を識別する能力は欠如していると結論づける。
論文 参考訳(メタデータ) (2024-06-06T19:44:17Z) - How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。
本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。
リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - Automated Extraction and Maturity Analysis of Open Source Clinical Informatics Repositories from Scientific Literature [0.0]
本研究では、arXivにインデックスされた学術論文からGitHubリポジトリURLを体系的に抽出することにより、ギャップを埋める自動化手法を提案する。
当社のアプローチでは、関連論文に対するarXiv APIのクエリ、抽出したGitHub URLのクリーニング、GitHub APIによる包括的なリポジトリ情報の取得、スター、フォーク、オープンイシュー、コントリビュータなどの定義されたメトリクスに基づいてリポジトリの成熟度を分析しています。
論文 参考訳(メタデータ) (2024-03-20T17:06:51Z) - Enhancing Source Code Representations for Deep Learning with Static
Analysis [10.222207222039048]
本稿では,静的解析とバグレポートやデザインパターンなどのコンテキストを,ディープラーニングモデルのためのソースコード表現に統合する方法について検討する。
我々はASTNN(Abstract Syntax Tree-based Neural Network)法を用いて,バグレポートやデザインパターンから得られたコンテキスト情報を追加して拡張する。
提案手法はソースコードの表現と処理を改善し,タスク性能を向上させる。
論文 参考訳(メタデータ) (2024-02-14T20:17:04Z) - Improving Deep Representation Learning via Auxiliary Learnable Target Coding [69.79343510578877]
本稿では,深層表現学習の補助的正規化として,新たな学習対象符号化を提案する。
具体的には、より差別的な表現を促進するために、マージンベースの三重項損失と、提案した目標符号上の相関整合損失を設計する。
論文 参考訳(メタデータ) (2023-05-30T01:38:54Z) - Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。
この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。
既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文 参考訳(メタデータ) (2022-11-15T19:42:27Z) - MORE: A Metric Learning Based Framework for Open-domain Relation
Extraction [25.149590577718996]
オープンリレーション抽出(OpenRE)は、オープンドメインコーパスからリレーションスキームを抽出するタスクである。
我々はMORE(Metric Learning-based Open Relation extract)という新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-01T07:51:20Z) - Capturing Structural Locality in Non-parametric Language Models [85.94669097485992]
非パラメトリック言語モデルに局所性情報を追加するための,単純かつ効果的なアプローチを提案する。
Javaソースコードとウィキペディアテキストという2つの異なる領域の実験では、局所性がモデルの有効性を向上させることが示されている。
論文 参考訳(メタデータ) (2021-10-06T15:53:38Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。