論文の概要: Topical: Learning Repository Embeddings from Source Code using Attention
- arxiv url: http://arxiv.org/abs/2208.09495v4
- Date: Sat, 4 Nov 2023 16:56:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 01:41:53.428074
- Title: Topical: Learning Repository Embeddings from Source Code using Attention
- Title(参考訳): トピック: 注意力を用いたソースコードからの学習リポジトリ埋め込み
- Authors: Agathe Lherondelle, Varun Babbar, Yash Satsangi, Fran Silavong,
Shaltiel Eloul, Sean Moran
- Abstract要約: 本稿では,リポジトリレベルの埋め込みのための新しいディープニューラルネットワークであるTopicalを提案する。
attentionメカニズムはソースコード、フル依存グラフ、スクリプトレベルのテキストデータからリポジトリレベルの表現を生成する。
- 参考スコア(独自算出の注目度): 3.110769442802435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Topical, a novel deep neural network for repository level
embeddings. Existing methods, reliant on natural language documentation or
naive aggregation techniques, are outperformed by Topical's utilization of an
attention mechanism. This mechanism generates repository-level representations
from source code, full dependency graphs, and script level textual data.
Trained on publicly accessible GitHub repositories, Topical surpasses multiple
baselines in tasks such as repository auto-tagging, highlighting the attention
mechanism's efficacy over traditional aggregation methods. Topical also
demonstrates scalability and efficiency, making it a valuable contribution to
repository-level representation computation. For further research, the
accompanying tools, code, and training dataset are provided at:
https://github.com/jpmorganchase/topical.
- Abstract(参考訳): 本稿では,リポジトリレベルの埋め込みのための新しいディープニューラルネットワークである topical を提案する。
自然言語ドキュメンテーションやナイーブアグリゲーション技術に依存した既存の手法は、トピックルが注意の仕組みを活用していることより優れている。
このメカニズムはソースコード、フル依存グラフ、スクリプトレベルのテキストデータからリポジトリレベルの表現を生成する。
公開アクセス可能なgithubリポジトリでトレーニングされた topical は,リポジトリの自動タグ付けなどのタスクにおいて,複数のベースラインを越えたものだ。
Topicalはスケーラビリティと効率性を実証し、リポジトリレベルの表現計算に価値ある貢献をする。
さらなる研究のために、関連するツール、コード、トレーニングデータセットがhttps://github.com/jpmorganchase/topicalで提供されている。
関連論文リスト
- Topological Methods in Machine Learning: A Tutorial for Practitioners [4.297070083645049]
トポロジカル機械学習(TML)は、代数的トポロジの技法を利用して複雑なデータ構造を分析する分野である。
このチュートリアルは、2つの重要なTMLテクニック、永続的ホモロジーとMapperアルゴリズムの包括的な紹介を提供する。
アクセシビリティを高めるために、私たちはデータ中心のアプローチを採用し、読者はこれらのテクニックを関連するタスクに適用したハンズオン体験を得ることができる。
論文 参考訳(メタデータ) (2024-09-04T17:44:52Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
リポジトリレベルのコード生成を評価するために設計された新しいベンチマークである textbfmethodnamews を提案する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - On The Importance of Reasoning for Context Retrieval in Repository-Level Code Editing [82.96523584351314]
我々は、コンテキスト検索のタスクをリポジトリレベルのコード編集パイプラインの他のコンポーネントと分離する。
我々は、推論が収集された文脈の精度を向上させるのに役立っているが、それでもその十分性を識別する能力は欠如していると結論づける。
論文 参考訳(メタデータ) (2024-06-06T19:44:17Z) - How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。
本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。
リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - Automated Extraction and Maturity Analysis of Open Source Clinical Informatics Repositories from Scientific Literature [0.0]
本研究では、arXivにインデックスされた学術論文からGitHubリポジトリURLを体系的に抽出することにより、ギャップを埋める自動化手法を提案する。
当社のアプローチでは、関連論文に対するarXiv APIのクエリ、抽出したGitHub URLのクリーニング、GitHub APIによる包括的なリポジトリ情報の取得、スター、フォーク、オープンイシュー、コントリビュータなどの定義されたメトリクスに基づいてリポジトリの成熟度を分析しています。
論文 参考訳(メタデータ) (2024-03-20T17:06:51Z) - Enhancing Source Code Representations for Deep Learning with Static
Analysis [10.222207222039048]
本稿では,静的解析とバグレポートやデザインパターンなどのコンテキストを,ディープラーニングモデルのためのソースコード表現に統合する方法について検討する。
我々はASTNN(Abstract Syntax Tree-based Neural Network)法を用いて,バグレポートやデザインパターンから得られたコンテキスト情報を追加して拡張する。
提案手法はソースコードの表現と処理を改善し,タスク性能を向上させる。
論文 参考訳(メタデータ) (2024-02-14T20:17:04Z) - Improving Deep Representation Learning via Auxiliary Learnable Target Coding [69.79343510578877]
本稿では,深層表現学習の補助的正規化として,新たな学習対象符号化を提案する。
具体的には、より差別的な表現を促進するために、マージンベースの三重項損失と、提案した目標符号上の相関整合損失を設計する。
論文 参考訳(メタデータ) (2023-05-30T01:38:54Z) - Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。
この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。
既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文 参考訳(メタデータ) (2022-11-15T19:42:27Z) - MORE: A Metric Learning Based Framework for Open-domain Relation
Extraction [25.149590577718996]
オープンリレーション抽出(OpenRE)は、オープンドメインコーパスからリレーションスキームを抽出するタスクである。
我々はMORE(Metric Learning-based Open Relation extract)という新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-01T07:51:20Z) - Capturing Structural Locality in Non-parametric Language Models [85.94669097485992]
非パラメトリック言語モデルに局所性情報を追加するための,単純かつ効果的なアプローチを提案する。
Javaソースコードとウィキペディアテキストという2つの異なる領域の実験では、局所性がモデルの有効性を向上させることが示されている。
論文 参考訳(メタデータ) (2021-10-06T15:53:38Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。