論文の概要: LabelGit: A Dataset for Software Repositories Classification using
Attributed Dependency Graphs
- arxiv url: http://arxiv.org/abs/2103.08890v1
- Date: Tue, 16 Mar 2021 07:28:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 19:38:05.652145
- Title: LabelGit: A Dataset for Software Repositories Classification using
Attributed Dependency Graphs
- Title(参考訳): labelgit: 帰属依存グラフを用いたソフトウェアリポジトリ分類のためのデータセット
- Authors: Cezar Sas, Andrea Capiluppi
- Abstract要約: LabelGitと呼ばれるGitHubプロジェクトの新しいデータセットを作成します。
私たちのデータセットは、依存関係グラフや識別子からのソースコードニューラル表現など、ソースコードからの直接的な情報を使用します。
プロキシに頼らず、ソースコード全体を分類するために使用するソリューションの開発を支援することを願っています。
- 参考スコア(独自算出の注目度): 11.523471275501857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software repository hosting services contain large amounts of open-source
software, with GitHub hosting more than 100 million repositories, from new to
established ones. Given this vast amount of projects, there is a pressing need
for a search based on the software's content and features. However, even though
GitHub offers various solutions to aid software discovery, most repositories do
not have any labels, reducing the utility of search and topic-based analysis.
Moreover, classifying software modules is also getting more importance given
the increase in Component-Based Software Development. However, previous work
focused on software classification using keyword-based approaches or proxies
for the project (e.g., README), which is not always available. In this work, we
create a new annotated dataset of GitHub Java projects called LabelGit. Our
dataset uses direct information from the source code, like the dependency graph
and source code neural representations from the identifiers. Using this
dataset, we hope to aid the development of solutions that do not rely on
proxies but use the entire source code to perform classification.
- Abstract(参考訳): ソフトウェアリポジトリホスティングサービスには大量のオープンソースソフトウェアが含まれており、GitHubは1億以上のリポジトリをホストしている。
この膨大な数のプロジェクトを考えると、ソフトウェアの内容と機能に基づいた検索の必要性が高まっている。
しかし、GitHubはソフトウェアの発見を支援する様々なソリューションを提供しているが、ほとんどのリポジトリはラベルを持っておらず、検索とトピックベースの分析の有用性を減らしている。
さらに、コンポーネントベースのソフトウェア開発の増加に伴い、ソフトウェアモジュールの分類も重要になっている。
しかし、以前の研究はキーワードベースのアプローチやプロジェクトのプロキシ(READMEなど)を使ったソフトウェア分類に重点を置いていた。
この作業では、LabelGitと呼ばれるGitHub Javaプロジェクトの注釈付きデータセットを作成します。
私たちのデータセットは、依存関係グラフや識別子からのソースコードニューラル表現など、ソースコードからの直接的な情報を使用します。
このデータセットを使うことで、プロキシに頼るのではなく、ソースコード全体を使用して分類を行うソリューションの開発を支援したいと考えています。
関連論文リスト
- RepoGraph: Enhancing AI Software Engineering with Repository-level Code Graph [63.87660059104077]
RepoGraphは、現代のAIソフトウェアエンジニアリングソリューションのためのリポジトリレベルの構造を管理するプラグインモジュールである。
RepoGraphはすべてのシステムのパフォーマンスを大幅に向上させ、オープンソースフレームワークの間で新たな最先端技術を生み出している。
論文 参考訳(メタデータ) (2024-10-03T05:45:26Z) - Long Code Arena: a Set of Benchmarks for Long-Context Code Models [75.70507534322336]
Long Code Arenaは、プロジェクト全体のコンテキストを必要とするコード処理タスクのための6つのベンチマークスイートである。
これらのタスクは、ライブラリベースのコード生成、CIビルドの修復、プロジェクトレベルのコード補完、コミットメッセージ生成、バグローカライゼーション、モジュールの要約といった、コード処理のさまざまな側面をカバーする。
各タスクに対して、テスト用の手作業によるデータセット、評価スイート、オープンソースのベースラインソリューションを提供しています。
論文 参考訳(メタデータ) (2024-06-17T14:58:29Z) - How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。
本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。
リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。
この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。
既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文 参考訳(メタデータ) (2022-11-15T19:42:27Z) - Automatically Categorising GitHub Repositories by Application Domain [14.265666415804025]
GitHubは、インターネット上で最大のオープンソースソフトウェアホストである。
幅広いドメインにまたがるリポジトリの多さをナビゲートするのはますます困難になっている。
過去の研究によると、アプリケーションドメインを考慮に入れることは、リポジトリの人気を予測するといったタスクに不可欠である。
論文 参考訳(メタデータ) (2022-07-30T16:27:16Z) - Semantically-enhanced Topic Recommendation System for Software Projects [2.0625936401496237]
ソフトウェアリポジトリに関連するトピックをタグ付けすることで、さまざまなダウンストリームタスクを容易にすることができる。
ソフトウェアプロジェクトにトピックを推奨する作業は行われているが、これらのトピック間のセマンティックな関係は、これまで利用されていない。
トピック間のセマンティックな関係を組み込んだ,ソフトウェアプロジェクトへのタグ付けのための2つの推奨モデルを提案する。
論文 参考訳(メタデータ) (2022-05-31T19:54:42Z) - GitRank: A Framework to Rank GitHub Repositories [0.0]
オープンソースリポジトリは豊富な情報を提供し、人工知能(AI)ベースのシステムの構築にますます利用されている。
このハッカソンでは、既知のコード品質測定とGrimoireLabツールキットを使用して、GitRankという名前のフレームワークを実装し、オープンソースのリポジトリを3つの異なる基準でランク付けします。
論文 参考訳(メタデータ) (2022-05-04T23:42:30Z) - Predicting Issue Types on GitHub [8.791809365994682]
Ticket Taggerは、機械学習技術による課題のタイトルと説明を分析するGitHubアプリである。
私たちは、約30,000のGitHubイシューに対して、ツールの予測パフォーマンスを実証的に評価しました。
論文 参考訳(メタデータ) (2021-07-21T08:14:48Z) - Benchmarking Graph Neural Networks [75.42159546060509]
グラフニューラルネットワーク(GNN)は、グラフ上のデータから分析および学習するための標準ツールキットとなっている。
成功している分野が主流で信頼性を持つようになるためには、進捗を定量化するためにベンチマークを開発する必要がある。
GitHubリポジトリは1,800のスターと339のフォークに到達し、提案されているオープンソースフレームワークの有用性を実証している。
論文 参考訳(メタデータ) (2020-03-02T15:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。