Fugu-MT 論文翻訳(概要): LabelGit: A Dataset for Software Repositories Classification using Attributed Dependency Graphs

論文の概要: LabelGit: A Dataset for Software Repositories Classification using Attributed Dependency Graphs

arxiv url: http://arxiv.org/abs/2103.08890v1
Date: Tue, 16 Mar 2021 07:28:58 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-17 19:38:05.652145
Title: LabelGit: A Dataset for Software Repositories Classification using Attributed Dependency Graphs
Title（参考訳）: labelgit: 帰属依存グラフを用いたソフトウェアリポジトリ分類のためのデータセット
Authors: Cezar Sas, Andrea Capiluppi
Abstract要約: LabelGitと呼ばれるGitHubプロジェクトの新しいデータセットを作成します。私たちのデータセットは、依存関係グラフや識別子からのソースコードニューラル表現など、ソースコードからの直接的な情報を使用します。プロキシに頼らず、ソースコード全体を分類するために使用するソリューションの開発を支援することを願っています。
参考スコア（独自算出の注目度）: 11.523471275501857
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Software repository hosting services contain large amounts of open-source software, with GitHub hosting more than 100 million repositories, from new to established ones. Given this vast amount of projects, there is a pressing need for a search based on the software's content and features. However, even though GitHub offers various solutions to aid software discovery, most repositories do not have any labels, reducing the utility of search and topic-based analysis. Moreover, classifying software modules is also getting more importance given the increase in Component-Based Software Development. However, previous work focused on software classification using keyword-based approaches or proxies for the project (e.g., README), which is not always available. In this work, we create a new annotated dataset of GitHub Java projects called LabelGit. Our dataset uses direct information from the source code, like the dependency graph and source code neural representations from the identifiers. Using this dataset, we hope to aid the development of solutions that do not rely on proxies but use the entire source code to perform classification.
Abstract（参考訳）: ソフトウェアリポジトリホスティングサービスには大量のオープンソースソフトウェアが含まれており、GitHubは1億以上のリポジトリをホストしている。この膨大な数のプロジェクトを考えると、ソフトウェアの内容と機能に基づいた検索の必要性が高まっている。しかし、GitHubはソフトウェアの発見を支援する様々なソリューションを提供しているが、ほとんどのリポジトリはラベルを持っておらず、検索とトピックベースの分析の有用性を減らしている。さらに、コンポーネントベースのソフトウェア開発の増加に伴い、ソフトウェアモジュールの分類も重要になっている。しかし、以前の研究はキーワードベースのアプローチやプロジェクトのプロキシ(READMEなど)を使ったソフトウェア分類に重点を置いていた。この作業では、LabelGitと呼ばれるGitHub Javaプロジェクトの注釈付きデータセットを作成します。私たちのデータセットは、依存関係グラフや識別子からのソースコードニューラル表現など、ソースコードからの直接的な情報を使用します。このデータセットを使うことで、プロキシに頼るのではなく、ソースコード全体を使用して分類を行うソリューションの開発を支援したいと考えています。

関連論文リスト

GREPO: A Benchmark for Graph Neural Networks on Repository-Level Bug Localization [50.009407518866965]
リポジトリレベルのバグローカライゼーションは、ソフトウェアエンジニアリングの重要な課題です。 GNNは、複雑なリポジトリ全体の依存関係をモデル化できるため、有望な代替手段を提供する。 GREPOは、リポジトリスケールのバグローカライゼーションタスクのための最初のGNNベンチマークである。
論文参考訳（メタデータ） (2026-02-14T23:22:15Z)
Deciphering WONTFIX: A Mixed-Method Study on Why GitHub Issues Get Rejected [0.0]
調査では、GitHub上のさまざまなオープンソースリポジトリで willtfix とラベル付けされている問題の存在状況と理由について調査している。調査の結果、GitHub上のプロジェクトの約30%が、いくつかの問題に対して wontfixラベルを適用していることがわかった。この研究は、ユーザ固有のコントロールファクタからメンテナ固有の決定まで、ラベル付け問題の背後にある8つの一般的なテーマを、Ventfixとして特定した。
論文参考訳（メタデータ） (2025-10-01T23:22:18Z)
Classifying Issues in Open-source GitHub Repositories [0.0]
GitHubは、オープンソースコミュニティでもっとも広く使われているソフトウェアメンテナンスプラットフォームである。開発者は困難に直面しながら、GitHubで問題を時々報告する。 GitHubリポジトリのほとんどは、問題の定期的なラベル付けを保持していない。
論文参考訳（メタデータ） (2025-07-25T06:20:54Z)
RepoGraph: Enhancing AI Software Engineering with Repository-level Code Graph [63.87660059104077]
RepoGraphは、現代のAIソフトウェアエンジニアリングソリューションのためのリポジトリレベルの構造を管理するプラグインモジュールである。 RepoGraphはすべてのシステムのパフォーマンスを大幅に向上させ、オープンソースフレームワークの間で新たな最先端技術を生み出している。
論文参考訳（メタデータ） (2024-10-03T05:45:26Z)
Long Code Arena: a Set of Benchmarks for Long-Context Code Models [75.70507534322336]
Long Code Arenaは、プロジェクト全体のコンテキストを必要とするコード処理タスクのための6つのベンチマークスイートである。これらのタスクは、ライブラリベースのコード生成、CIビルドの修復、プロジェクトレベルのコード補完、コミットメッセージ生成、バグローカライゼーション、モジュールの要約といった、コード処理のさまざまな側面をカバーする。各タスクに対して、テスト用の手作業によるデータセット、評価スイート、オープンソースのベースラインソリューションを提供しています。
論文参考訳（メタデータ） (2024-06-17T14:58:29Z)
How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文参考訳（メタデータ） (2024-06-03T15:20:06Z)
RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文参考訳（メタデータ） (2023-03-22T13:54:46Z)
Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文参考訳（メタデータ） (2022-11-15T19:42:27Z)
Automatically Categorising GitHub Repositories by Application Domain [14.265666415804025]
GitHubは、インターネット上で最大のオープンソースソフトウェアホストである。幅広いドメインにまたがるリポジトリの多さをナビゲートするのはますます困難になっている。過去の研究によると、アプリケーションドメインを考慮に入れることは、リポジトリの人気を予測するといったタスクに不可欠である。
論文参考訳（メタデータ） (2022-07-30T16:27:16Z)
Semantically-enhanced Topic Recommendation System for Software Projects [2.0625936401496237]
ソフトウェアリポジトリに関連するトピックをタグ付けすることで、さまざまなダウンストリームタスクを容易にすることができる。ソフトウェアプロジェクトにトピックを推奨する作業は行われているが、これらのトピック間のセマンティックな関係は、これまで利用されていない。トピック間のセマンティックな関係を組み込んだ,ソフトウェアプロジェクトへのタグ付けのための2つの推奨モデルを提案する。
論文参考訳（メタデータ） (2022-05-31T19:54:42Z)
GitRank: A Framework to Rank GitHub Repositories [0.0]
オープンソースリポジトリは豊富な情報を提供し、人工知能(AI)ベースのシステムの構築にますます利用されている。このハッカソンでは、既知のコード品質測定とGrimoireLabツールキットを使用して、GitRankという名前のフレームワークを実装し、オープンソースのリポジトリを3つの異なる基準でランク付けします。
論文参考訳（メタデータ） (2022-05-04T23:42:30Z)
Predicting Issue Types on GitHub [8.791809365994682]
Ticket Taggerは、機械学習技術による課題のタイトルと説明を分析するGitHubアプリである。私たちは、約30,000のGitHubイシューに対して、ツールの予測パフォーマンスを実証的に評価しました。
論文参考訳（メタデータ） (2021-07-21T08:14:48Z)
Benchmarking Graph Neural Networks [75.42159546060509]
グラフニューラルネットワーク(GNN)は、グラフ上のデータから分析および学習するための標準ツールキットとなっている。成功している分野が主流で信頼性を持つようになるためには、進捗を定量化するためにベンチマークを開発する必要がある。 GitHubリポジトリは1,800のスターと339のフォークに到達し、提案されているオープンソースフレームワークの有用性を実証している。
論文参考訳（メタデータ） (2020-03-02T15:58:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。