論文の概要: Automatically Categorising GitHub Repositories by Application Domain
- arxiv url: http://arxiv.org/abs/2208.00269v1
- Date: Sat, 30 Jul 2022 16:27:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 14:46:01.320720
- Title: Automatically Categorising GitHub Repositories by Application Domain
- Title(参考訳): アプリケーションドメインによるGitHubリポジトリの自動分類
- Authors: Francisco Zanartu and Christoph Treude and Bruno Cartaxo and Hudson
Silva Borges and Pedro Moura and Markus Wagner and Gustavo Pinto
- Abstract要約: GitHubは、インターネット上で最大のオープンソースソフトウェアホストである。
幅広いドメインにまたがるリポジトリの多さをナビゲートするのはますます困難になっている。
過去の研究によると、アプリケーションドメインを考慮に入れることは、リポジトリの人気を予測するといったタスクに不可欠である。
- 参考スコア(独自算出の注目度): 14.265666415804025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GitHub is the largest host of open source software on the Internet. This
large, freely accessible database has attracted the attention of practitioners
and researchers alike. But as GitHub's growth continues, it is becoming
increasingly hard to navigate the plethora of repositories which span a wide
range of domains. Past work has shown that taking the application domain into
account is crucial for tasks such as predicting the popularity of a repository
and reasoning about project quality. In this work, we build on a previously
annotated dataset of 5,000 GitHub repositories to design an automated
classifier for categorising repositories by their application domain. The
classifier uses state-of-the-art natural language processing techniques and
machine learning to learn from multiple data sources and catalogue repositories
according to five application domains. We contribute with (1) an automated
classifier that can assign popular repositories to each application domain with
at least 70% precision, (2) an investigation of the approach's performance on
less popular repositories, and (3) a practical application of this approach to
answer how the adoption of software engineering practices differs across
application domains. Our work aims to help the GitHub community identify
repositories of interest and opens promising avenues for future work
investigating differences between repositories from different application
domains.
- Abstract(参考訳): GitHubは、インターネット上で最大のオープンソースソフトウェアホストである。
この大規模で自由にアクセスできるデータベースは、実践者や研究者の注目を集めている。
しかし、githubの成長が進むにつれて、広範囲のドメインにまたがるリポジトリをナビゲートすることがますます難しくなってきている。
過去の研究から、リポジトリの人気予測やプロジェクト品質の推論といったタスクには、アプリケーションドメインを考慮に入れることが不可欠であることが示されている。
この作業では、5,000のGitHubリポジトリの注釈付きデータセット上に構築し、アプリケーションドメインでリポジトリを分類するための自動分類器を設計します。
この分類器は最先端の自然言語処理技術と機械学習を使用して、5つのアプリケーションドメインに従って複数のデータソースとカタログリポジトリから学習する。
我々は,(1) 人気リポジトリを少なくとも70%の精度で各アプリケーションドメインに割り当てる自動分類器,(2) 人気が低いリポジトリ上でのアプローチのパフォーマンスの調査,(3) ソフトウェア工学の実践がアプリケーションドメイン間でどのように異なるかを理解するための,このアプローチの実践的応用について提案する。
私たちの研究はGitHubコミュニティが関心のあるリポジトリを識別することを支援することを目的としており、様々なアプリケーションドメインのリポジトリの違いを調査するための将来的な道を開くことを目的としています。
関連論文リスト
- RepoGraph: Enhancing AI Software Engineering with Repository-level Code Graph [63.87660059104077]
RepoGraphは、現代のAIソフトウェアエンジニアリングソリューションのためのリポジトリレベルの構造を管理するプラグインモジュールである。
RepoGraphはすべてのシステムのパフォーマンスを大幅に向上させ、オープンソースフレームワークの間で新たな最先端技術を生み出している。
論文 参考訳(メタデータ) (2024-10-03T05:45:26Z) - GitHub Marketplace for Automation and Innovation in Software Production [2.0749231618270803]
GitHub Marketplaceは自動化ツールをホストし、GitHubがホストするプロジェクトの運用を支援する。
本研究では, プラットフォームの特徴, 特徴, 方針について検討し, 生産自動化における共通テーマを明らかにする。
論文 参考訳(メタデータ) (2024-07-07T23:55:15Z) - How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。
本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。
リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - ReGAL: Refactoring Programs to Discover Generalizable Abstractions [59.05769810380928]
Generalizable Abstraction Learning (ReGAL)は、再利用可能な関数のライブラリをコード化して学習する手法である。
ReGALによって発見された共有関数ライブラリは、プログラムが様々な領域で容易に予測できることを示している。
CodeLlama-13Bでは、ReGALはLOGOで11.5%、日付理解で26.1%、TextCraftで8.1%という絶対精度が向上し、3つのドメインのうち2つでGPT-3.5を上回った。
論文 参考訳(メタデータ) (2024-01-29T18:45:30Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - GitAgent: Facilitating Autonomous Agent with GitHub by Tool Extension [81.44231422624055]
さまざまなタスクを実行できる外部ツールを備えた大規模言語モデル(LLM)に焦点が当てられている。
本稿では,GitHubから自動ツール拡張を実現するエージェントであるGitAgentを紹介する。
論文 参考訳(メタデータ) (2023-12-28T15:47:30Z) - Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。
この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。
既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文 参考訳(メタデータ) (2022-11-15T19:42:27Z) - Topical: Learning Repository Embeddings from Source Code using Attention [3.110769442802435]
本稿では,リポジトリレベルの埋め込みのための新しいディープニューラルネットワークであるTopicalを提案する。
attentionメカニズムはソースコード、フル依存グラフ、スクリプトレベルのテキストデータからリポジトリレベルの表現を生成する。
論文 参考訳(メタデータ) (2022-08-19T18:13:27Z) - GitHub Actions: The Impact on the Pull Request Process [7.047566396769727]
本研究では、プロジェクトがGitHub Actionsをどのように利用するか、開発者がGitHub Actionsについて何を議論しているか、プロジェクトアクティビティインジケータが採用後にどのように変化するかを調査する。
私たちの調査によると、5,000のリポジトリのうち1489がGitHub Actionsを採用しています。
また、GitHub Actionsの採用によってプルリクエスト(PR)の拒絶が増加し、受け入れられたPRでのコミュニケーションが増加し、拒否されたPRでのコミュニケーションが減少することが示唆された。
論文 参考訳(メタデータ) (2022-06-28T16:24:17Z) - GitRank: A Framework to Rank GitHub Repositories [0.0]
オープンソースリポジトリは豊富な情報を提供し、人工知能(AI)ベースのシステムの構築にますます利用されている。
このハッカソンでは、既知のコード品質測定とGrimoireLabツールキットを使用して、GitRankという名前のフレームワークを実装し、オープンソースのリポジトリを3つの異なる基準でランク付けします。
論文 参考訳(メタデータ) (2022-05-04T23:42:30Z) - LabelGit: A Dataset for Software Repositories Classification using
Attributed Dependency Graphs [11.523471275501857]
LabelGitと呼ばれるGitHubプロジェクトの新しいデータセットを作成します。
私たちのデータセットは、依存関係グラフや識別子からのソースコードニューラル表現など、ソースコードからの直接的な情報を使用します。
プロキシに頼らず、ソースコード全体を分類するために使用するソリューションの開発を支援することを願っています。
論文 参考訳(メタデータ) (2021-03-16T07:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。