論文の概要: Repo2Vec: A Comprehensive Embedding Approach for Determining Repository
Similarity
- arxiv url: http://arxiv.org/abs/2107.05112v1
- Date: Sun, 11 Jul 2021 18:57:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 01:52:06.330452
- Title: Repo2Vec: A Comprehensive Embedding Approach for Determining Repository
Similarity
- Title(参考訳): Repo2Vec:リポジトリの類似性決定のための包括的埋め込みアプローチ
- Authors: Md Omar Faruk Rokon, Pei Yan, Risul Islam, Michalis Faloutsos
- Abstract要約: Repo2Vecは、リポジトリを分散ベクタとして表現するための包括的な埋め込みアプローチである。
当社の手法をGitHubから2つの実際のデータセットで評価し、1013リポジトリを組み合わせて検討した。
- 参考スコア(独自算出の注目度): 2.095199622772379
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How can we identify similar repositories and clusters among a large online
archive, such as GitHub? Determiningrepository similarity is an essential
building block in studying the dynamics and the evolution of such software
ecosystems. The key challenge is to determine the right representation for the
diverse repository features in a way that: (a) it captures all aspects of the
available information, and (b) it is readily usable by MLalgorithms. We propose
Repo2Vec, a comprehensive embedding approach to represent a repository as a
distributed vector by combining features from three types of information
sources. As our key novelty, we consider three types of information:
(a)metadata, (b) the structure of the repository, and (c) the source code. We
also introduce a series of embedding approaches to represent and combine these
information types into a single embedding. We evaluate our method with two real
datasets from GitHub for a combined 1013 repositories. First, we show that our
method outperforms previous methods in terms of precision (93%vs 78%), with
nearly twice as many Strongly Similar repositories and 30% fewer False
Positives. Second, we show how Repo2Vecprovides a solid basis for: (a)
distinguishing between malware and benign repositories, and (b) identifying a
meaningful hierarchical clustering. For example, we achieve 98% precision and
96%recall in distinguishing malware and benign repositories. Overall, our work
is a fundamental building block for enabling many repository analysis functions
such as repository categorization by target platform or intention, detecting
code-reuse and clones, and identifying lineage and evolution.
- Abstract(参考訳): githubのような大規模なオンラインアーカイブの中で、類似したリポジトリやクラスタをどうやって特定できるのでしょう?
リポジトリの類似性の決定は、このようなソフトウェアエコシステムのダイナミクスと進化を研究する上で不可欠な構成要素である。
重要な課題は、さまざまなリポジトリ機能の適切な表現を決定することである。 (a) 利用可能な情報のすべての側面をキャプチャし、 (b) MLalgorithmsによって容易に使用することができる。
本稿では,リポジトリを分散ベクタとして表現するための総合的な埋め込み手法であるRepo2Vecを提案する。
a)メタデータ、(b)レポジトリの構造、(c)ソースコードの3つのタイプの情報について検討しています。
また、これらの情報型を単一の埋め込みに表現し、組み合わせるための一連の埋め込みアプローチも導入します。
この手法をGitHubから2つの実際のデータセットで評価し、1013リポジトリを組み合わせた。
まず,提案手法が精度(93%vs78%)で従来の手法を上回り,ほぼ2倍の類似リポジトリと30%の偽陽性率を示した。
次に,repo2vecが, (a) マルウェアと良性リポジトリの区別, (b) 有意義な階層的クラスタリングの識別といった,確かな基盤を提供する方法を示す。
例えば、マルウェアと良性リポジトリの区別において、98%の精度と96%のリコールを実現しています。
全体的な作業は、ターゲットプラットフォームや意図によるリポジトリ分類、コード再利用とクローンの検出、系統と進化の特定など、多くのリポジトリ分析機能を実現するための基本的なビルディングブロックです。
関連論文リスト
- How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。
本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。
リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - Class-Level Code Generation from Natural Language Using Iterative, Tool-Enhanced Reasoning over Repository [4.767858874370881]
実世界のリポジトリ内でクラスレベルのコードを生成する際に,LLMを厳格に評価するためのベンチマークであるRepoClassBenchを紹介する。
RepoClassBenchには、リポジトリの選択からJava、Python、C#にまたがる"Natural Language to Class Generation"タスクが含まれている。
Retrieve-Repotools-Reflect (RRR)は,レポジトリレベルのコンテキストを反復的にナビゲートし,推論する静的解析ツールを備えた新しいアプローチである。
論文 参考訳(メタデータ) (2024-04-22T03:52:54Z) - RepoFusion: Training Code Models to Understand Your Repository [12.621282610983592]
GitHub Copilotのようなコーディングアシスタントにおける大きな言語モデル(LLM)は、リポジトリに存在するコンテキストを理解するのに苦労している。
最近の研究は、推論中にリポジトリからコンテキストを使用するという約束を示している。
関連するリポジトリコンテキストを組み込むためのモデルをトレーニングするフレームワークであるRepoFusionを提案する。
論文 参考訳(メタデータ) (2023-06-19T15:05:31Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - Topical: Learning Repository Embeddings from Source Code using Attention [3.110769442802435]
本稿では,リポジトリレベルの埋め込みのための新しいディープニューラルネットワークであるTopicalを提案する。
attentionメカニズムはソースコード、フル依存グラフ、スクリプトレベルのテキストデータからリポジトリレベルの表現を生成する。
論文 参考訳(メタデータ) (2022-08-19T18:13:27Z) - Learning Implicit Feature Alignment Function for Semantic Segmentation [51.36809814890326]
Implicit Feature Alignment Function (IFA)は、暗黙の神経表現の急速に拡大するトピックにインスパイアされている。
IFAは機能マップを異なるレベルで暗黙的に整列し、任意の解像度でセグメンテーションマップを生成することができることを示す。
提案手法は,様々なアーキテクチャの改善と組み合わせて,一般的なベンチマークにおける最先端の精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-06-17T09:40:14Z) - Deep Class Incremental Learning from Decentralized Data [103.2386956343121]
我々は、対処すべきデータの継続的な流入がある、新しい、挑戦的な分散機械学習パラダイムに焦点を当てています。
典型的な(分散化された)クラスインクリメンタルな学習手法の基本的な分散化を実現するためのパラダイムを導入する。
本稿では, 歴史的モデルや複数のローカルサイトからの知識を連続的に一般モデルに伝達するための分散複合知識増分蒸留フレームワーク(DCID)を提案する。
論文 参考訳(メタデータ) (2022-03-11T15:09:33Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z) - Weakly Supervised Instance Attention for Multisource Fine-Grained Object
Recognition with an Application to Tree Species Classification [9.668407688201361]
比較的小さなオブジェクトを分類するマルチソース手法を提案する。
提案手法は,並列分岐を用いた単一ソース深部注目モデルを用いて,オブジェクトの局所化と分類を行う。
以上の結果から,40種類の木に対する認識精度は53%と高い結果が得られた。
論文 参考訳(メタデータ) (2021-05-23T17:51:14Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。