論文の概要: LabelGit: A Dataset for Software Repositories Classification using
Attributed Dependency Graphs
- arxiv url: http://arxiv.org/abs/2103.08890v1
- Date: Tue, 16 Mar 2021 07:28:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 19:38:05.652145
- Title: LabelGit: A Dataset for Software Repositories Classification using
Attributed Dependency Graphs
- Title(参考訳): labelgit: 帰属依存グラフを用いたソフトウェアリポジトリ分類のためのデータセット
- Authors: Cezar Sas, Andrea Capiluppi
- Abstract要約: LabelGitと呼ばれるGitHubプロジェクトの新しいデータセットを作成します。
私たちのデータセットは、依存関係グラフや識別子からのソースコードニューラル表現など、ソースコードからの直接的な情報を使用します。
プロキシに頼らず、ソースコード全体を分類するために使用するソリューションの開発を支援することを願っています。
- 参考スコア(独自算出の注目度): 11.523471275501857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software repository hosting services contain large amounts of open-source
software, with GitHub hosting more than 100 million repositories, from new to
established ones. Given this vast amount of projects, there is a pressing need
for a search based on the software's content and features. However, even though
GitHub offers various solutions to aid software discovery, most repositories do
not have any labels, reducing the utility of search and topic-based analysis.
Moreover, classifying software modules is also getting more importance given
the increase in Component-Based Software Development. However, previous work
focused on software classification using keyword-based approaches or proxies
for the project (e.g., README), which is not always available. In this work, we
create a new annotated dataset of GitHub Java projects called LabelGit. Our
dataset uses direct information from the source code, like the dependency graph
and source code neural representations from the identifiers. Using this
dataset, we hope to aid the development of solutions that do not rely on
proxies but use the entire source code to perform classification.
- Abstract(参考訳): ソフトウェアリポジトリホスティングサービスには大量のオープンソースソフトウェアが含まれており、GitHubは1億以上のリポジトリをホストしている。
この膨大な数のプロジェクトを考えると、ソフトウェアの内容と機能に基づいた検索の必要性が高まっている。
しかし、GitHubはソフトウェアの発見を支援する様々なソリューションを提供しているが、ほとんどのリポジトリはラベルを持っておらず、検索とトピックベースの分析の有用性を減らしている。
さらに、コンポーネントベースのソフトウェア開発の増加に伴い、ソフトウェアモジュールの分類も重要になっている。
しかし、以前の研究はキーワードベースのアプローチやプロジェクトのプロキシ(READMEなど)を使ったソフトウェア分類に重点を置いていた。
この作業では、LabelGitと呼ばれるGitHub Javaプロジェクトの注釈付きデータセットを作成します。
私たちのデータセットは、依存関係グラフや識別子からのソースコードニューラル表現など、ソースコードからの直接的な情報を使用します。
このデータセットを使うことで、プロキシに頼るのではなく、ソースコード全体を使用して分類を行うソリューションの開発を支援したいと考えています。
関連論文リスト
- The Software Heritage Open Science Ecosystem [0.0]
ソフトウェア遺産 (Software Heritage) は、ソフトウェアソースコードと関連する開発履歴の公開アーカイブである。
2億5000万以上の共同開発プロジェクトから得られた16億以上のユニークなソースコードファイルをアーカイブしている。
1つのメルクル直接非巡回グラフで公開コードの開発履歴を実体化することで、ソフトウェアに関する実証的研究を支援する。
実験を行うソフトウェアに依存するあらゆる分野において、ソフトウェアアーチファクトのソースコードの可用性と整合性を保証する。
論文 参考訳(メタデータ) (2023-10-16T11:32:03Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。
この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。
既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文 参考訳(メタデータ) (2022-11-15T19:42:27Z) - Automatically Categorising GitHub Repositories by Application Domain [14.265666415804025]
GitHubは、インターネット上で最大のオープンソースソフトウェアホストである。
幅広いドメインにまたがるリポジトリの多さをナビゲートするのはますます困難になっている。
過去の研究によると、アプリケーションドメインを考慮に入れることは、リポジトリの人気を予測するといったタスクに不可欠である。
論文 参考訳(メタデータ) (2022-07-30T16:27:16Z) - Semantically-enhanced Topic Recommendation System for Software Projects [2.0625936401496237]
ソフトウェアリポジトリに関連するトピックをタグ付けすることで、さまざまなダウンストリームタスクを容易にすることができる。
ソフトウェアプロジェクトにトピックを推奨する作業は行われているが、これらのトピック間のセマンティックな関係は、これまで利用されていない。
トピック間のセマンティックな関係を組み込んだ,ソフトウェアプロジェクトへのタグ付けのための2つの推奨モデルを提案する。
論文 参考訳(メタデータ) (2022-05-31T19:54:42Z) - GitRank: A Framework to Rank GitHub Repositories [0.0]
オープンソースリポジトリは豊富な情報を提供し、人工知能(AI)ベースのシステムの構築にますます利用されている。
このハッカソンでは、既知のコード品質測定とGrimoireLabツールキットを使用して、GitRankという名前のフレームワークを実装し、オープンソースのリポジトリを3つの異なる基準でランク付けします。
論文 参考訳(メタデータ) (2022-05-04T23:42:30Z) - DeepKE: A Deep Learning Based Knowledge Extraction Toolkit for Knowledge
Base Population [95.0099875111663]
DeepKEは、名前付きエンティティ認識、関係抽出、属性抽出など、さまざまな情報抽出タスクを実装している。
DeepKEを使えば、開発者や研究者はデータセットやモデルをカスタマイズして、要求に応じて構造化されていないデータから情報を抽出できる。
論文 参考訳(メタデータ) (2022-01-10T13:29:05Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Predicting Issue Types on GitHub [8.791809365994682]
Ticket Taggerは、機械学習技術による課題のタイトルと説明を分析するGitHubアプリである。
私たちは、約30,000のGitHubイシューに対して、ツールの予測パフォーマンスを実証的に評価しました。
論文 参考訳(メタデータ) (2021-07-21T08:14:48Z) - S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。
BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。
私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文 参考訳(メタデータ) (2021-03-18T21:10:41Z) - Benchmarking Graph Neural Networks [75.42159546060509]
グラフニューラルネットワーク(GNN)は、グラフ上のデータから分析および学習するための標準ツールキットとなっている。
成功している分野が主流で信頼性を持つようになるためには、進捗を定量化するためにベンチマークを開発する必要がある。
GitHubリポジトリは1,800のスターと339のフォークに到達し、提案されているオープンソースフレームワークの有用性を実証している。
論文 参考訳(メタデータ) (2020-03-02T15:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。