論文の概要: GitRanking: A Ranking of GitHub Topics for Software Classification using
Active Sampling
- arxiv url: http://arxiv.org/abs/2205.09379v1
- Date: Thu, 19 May 2022 08:21:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-21 05:10:00.920792
- Title: GitRanking: A Ranking of GitHub Topics for Software Classification using
Active Sampling
- Title(参考訳): GitRanking: アクティブサンプリングを使用したソフトウェア分類のためのGitHubトピックのランキング
- Authors: Cezar Sas, Andrea Capiluppi, Claudio Di Sipio, Juri Di Rocco, Davide
Di Ruscio
- Abstract要約: GitHubは世界最大のソースコードホストで、1億5000万以上のリポジトリがある。
過去数年間、ソフトウェア・アプリケーション・ドメインの分類について様々な提案がなされてきた。
この研究はGitRankingを提案する。GitRankingは、一般的な意味や特定の意味に基づいて、個別のレベルに分類するフレームワークである。
- 参考スコア(独自算出の注目度): 9.752388851329664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GitHub is the world's largest host of source code, with more than 150M
repositories. However, most of these repositories are not labeled or
inadequately so, making it harder for users to find relevant projects. There
have been various proposals for software application domain classification over
the past years. However, these approaches lack a well-defined taxonomy that is
hierarchical, grounded in a knowledge base, and free of irrelevant terms. This
work proposes GitRanking, a framework for creating a classification ranked into
discrete levels based on how general or specific their meaning is. We collected
121K topics from GitHub and considered $60\%$ of the most frequent ones for the
ranking. GitRanking 1) uses active sampling to ensure a minimal number of
required annotations; and 2) links each topic to Wikidata, reducing ambiguities
and improving the reusability of the taxonomy. Our results show that
developers, when annotating their projects, avoid using terms with a high
degree of specificity. This makes the finding and discovery of their projects
more challenging for other users. Furthermore, we show that GitRanking can
effectively rank terms according to their general or specific meaning. This
ranking would be an essential asset for developers to build upon, allowing them
to complement their annotations with more precise topics. Finally, we show that
GitRanking is a dynamically extensible method: it can currently accept further
terms to be ranked with a minimum number of annotations ($\sim$ 15). This paper
is the first collective attempt to build a ground-up taxonomy of software
domains.
- Abstract(参考訳): GitHubは世界最大のソースコードホストで、1億5000万以上のリポジトリがある。
しかし、これらのリポジトリのほとんどはラベルが付けられていないため、関連するプロジェクトを見つけるのが難しくなっている。
過去数年間、ソフトウェアアプリケーションドメイン分類に関する様々な提案があった。
しかしながら、これらのアプローチには、階層的で、知識ベースに根ざし、無関係な用語のない、明確に定義された分類法がない。
一般的な意味や特定の意味に基づいて、個別のレベルに分類された分類を作成するためのフレームワークだ。
GitHubから121Kのトピックを収集し、ランキングでもっとも頻繁なトピックの60\%$を検討した。
GitRanking
1) 必要なアノテーションの最小数を保証するためにアクティブサンプリングを使用する。
2)各トピックをwikidataにリンクし,あいまいさを低減し,分類の再利用性を改善する。
この結果から,プロジェクトへの注釈付けを行う場合,高い特異性を持つ用語の使用を避けることができることがわかった。
これにより、他のユーザにとってプロジェクトの発見と発見がより困難になる。
さらに、GitRankingは、その一般的な意味や特定の意味に応じて、効率的に用語をランク付けできることを示す。
このランキングは、開発者が構築する上で必須の資産であり、より正確なトピックでアノテーションを補完することができる。
最後に、GitRankingは動的に拡張可能なメソッドであることを示す。
本論文は,ソフトウェア領域の分類体系を構築するための最初の試みである。
関連論文リスト
- AGRaME: Any-Granularity Ranking with Multi-Vector Embeddings [53.78802457488845]
我々は,多ベクトル埋め込みを利用して粒度の異なるレベルにランク付けする,任意の粒度ランキングの考え方を紹介した。
検索強化世代におけるポストホック励振付加への命題レベルのランク付けの適用を実証する。
論文 参考訳(メタデータ) (2024-05-23T20:04:54Z) - How do Software Engineering Researchers Use GitHub? An Empirical Study of Artifacts & Impact [0.2209921757303168]
我々は、著者が研究にかかわるソーシャルコーディングにどのように関与しているかを尋ねる。
トップSE研究会場で1万件の論文が公開され、GitHubリンクに手書き注釈が付けられ、309の論文関連リポジトリが研究されている。
人気と影響力は広く分布しており、一部は出版会場と強く相関している。
論文 参考訳(メタデータ) (2023-10-02T18:56:33Z) - Contrastive Meta-Learning for Few-shot Node Classification [54.36506013228169]
少ないショットノード分類は、限定されたラベル付きノードのみを参照としてグラフ上のノードのラベルを予測することを目的としている。
グラフ上にCOSMICという新しい対照的なメタラーニングフレームワークを2つの重要な設計で作成する。
論文 参考訳(メタデータ) (2023-06-27T02:22:45Z) - Learning List-Level Domain-Invariant Representations for Ranking [59.3544317373004]
リストレベルのアライメント -- より高いレベルのリストでドメイン不変表現を学習する。
利点は2つある: これは、ランク付けに縛られる最初のドメイン適応の一般化をもたらし、その結果、提案法に対する理論的支援を提供する。
論文 参考訳(メタデータ) (2022-12-21T04:49:55Z) - Automatically Categorising GitHub Repositories by Application Domain [14.265666415804025]
GitHubは、インターネット上で最大のオープンソースソフトウェアホストである。
幅広いドメインにまたがるリポジトリの多さをナビゲートするのはますます困難になっている。
過去の研究によると、アプリケーションドメインを考慮に入れることは、リポジトリの人気を予測するといったタスクに不可欠である。
論文 参考訳(メタデータ) (2022-07-30T16:27:16Z) - GitHub Actions: The Impact on the Pull Request Process [7.047566396769727]
本研究では、プロジェクトがGitHub Actionsをどのように利用するか、開発者がGitHub Actionsについて何を議論しているか、プロジェクトアクティビティインジケータが採用後にどのように変化するかを調査する。
私たちの調査によると、5,000のリポジトリのうち1489がGitHub Actionsを採用しています。
また、GitHub Actionsの採用によってプルリクエスト(PR)の拒絶が増加し、受け入れられたPRでのコミュニケーションが増加し、拒否されたPRでのコミュニケーションが減少することが示唆された。
論文 参考訳(メタデータ) (2022-06-28T16:24:17Z) - GitRank: A Framework to Rank GitHub Repositories [0.0]
オープンソースリポジトリは豊富な情報を提供し、人工知能(AI)ベースのシステムの構築にますます利用されている。
このハッカソンでは、既知のコード品質測定とGrimoireLabツールキットを使用して、GitRankという名前のフレームワークを実装し、オープンソースのリポジトリを3つの異なる基準でランク付けします。
論文 参考訳(メタデータ) (2022-05-04T23:42:30Z) - Taxonomy Enrichment with Text and Graph Vector Representations [61.814256012166794]
我々は,既存の分類学に新たな語を加えることを目的とした分類学の豊かさの問題に対処する。
我々は,この課題に対して,少ない労力で高い結果を得られる新しい手法を提案する。
我々は、異なるデータセットにわたる最先端の結果を達成し、ミスの詳細なエラー分析を提供する。
論文 参考訳(メタデータ) (2022-01-21T09:01:12Z) - LabelGit: A Dataset for Software Repositories Classification using
Attributed Dependency Graphs [11.523471275501857]
LabelGitと呼ばれるGitHubプロジェクトの新しいデータセットを作成します。
私たちのデータセットは、依存関係グラフや識別子からのソースコードニューラル表現など、ソースコードからの直接的な情報を使用します。
プロキシに頼らず、ソースコード全体を分類するために使用するソリューションの開発を支援することを願っています。
論文 参考訳(メタデータ) (2021-03-16T07:28:58Z) - Exploring the Hierarchy in Relation Labels for Scene Graph Generation [75.88758055269948]
提案手法は,Recall@50において,複数の最先端ベースラインを大きなマージン(最大33%の相対利得)で改善することができる。
実験により,提案手法により,最先端のベースラインを大きなマージンで改善できることが示された。
論文 参考訳(メタデータ) (2020-09-12T17:36:53Z) - TaxoExpan: Self-supervised Taxonomy Expansion with Position-Enhanced
Graph Neural Network [62.12557274257303]
分類学は機械解釈可能な意味論から成り、多くのウェブアプリケーションに貴重な知識を提供する。
そこで我々は,既存の分類学から,クエリの集合を自動生成するTaxoExpanという,新しい自己教師型フレームワークを提案する。
本研究では,(1)既存の分類学におけるアンカー概念の局所構造を符号化する位置強調グラフニューラルネットワーク,(2)学習モデルが自己超越データにおけるラベルノイズに敏感になるようなノイズローバスト学習の2つの手法を開発する。
論文 参考訳(メタデータ) (2020-01-26T21:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。