論文の概要: CAM: A Collection of Snapshots of GitHub Java Repositories Together with
Metrics
- arxiv url: http://arxiv.org/abs/2403.08488v1
- Date: Wed, 13 Mar 2024 12:52:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 14:43:51.118602
- Title: CAM: A Collection of Snapshots of GitHub Java Repositories Together with
Metrics
- Title(参考訳): CAM: GitHub Javaリポジトリのスナップショット集
メートル法
- Authors: Yegor Bugayenko
- Abstract要約: 2024年3月2日に公開された2.2Gbの最新アーカイブには、クラス毎に48のメトリクスを持つ532KのJavaクラスが含まれています。
少なくとも年に1回は、非常に強力なサーバ上で最低10日間のプロセスであるスクリプト全体を実行して、新しいデータセットを生成します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Even though numerous researchers require stable datasets along with source
code and basic metrics calculated on them, neither GitHub nor any other code
hosting platform provides such a resource. Consequently, each researcher must
download their own data, compute the necessary metrics, and then publish the
dataset somewhere to ensure it remains accessible indefinitely. Our CAM (stands
for ``Classes and Metrics'') project addresses this need. It is an open-source
software capable of cloning Java repositories from GitHub, filtering out
unnecessary files, parsing Java classes, and computing metrics such as
Cyclomatic Complexity, Halstead Effort and Volume, C\&K metrics,
Maintainability Metrics, LCOM5 and HND, as well as some Git-based Metrics. At
least once a year, we execute the entire script, a process which requires a
minimum of ten days on a very powerful server, to generate a new dataset.
Subsequently, we publish it on Amazon S3, thereby ensuring its availability as
a reference for researchers. The latest archive of 2.2Gb that we published on
the 2nd of March, 2024 includes 532K Java classes with 48 metrics for each
class.
- Abstract(参考訳): 多くの研究者がソースコードや基本的なメトリクスとともに安定したデータセットを必要としているが、GitHubも他のコードホスティングプラットフォームもそのようなリソースを提供していない。
その結果、各研究者は自身のデータをダウンロードし、必要なメトリクスを計算し、データセットをどこかに公開して、いつまでもアクセス可能であることを保証する必要がある。
私たちのCAM( ``Classes and Metrics'' の略)プロジェクトは、このニーズに対処します。
これは、GitHubからJavaリポジトリをクローンし、不要なファイルをフィルタリングし、Javaクラスを解析し、Cyclomatic Complexity、Halstead Effort and Volume、C\&Kメトリクス、Cantainability Metrics、LCOM5、HNDといった計算メトリクスや、GitベースのMetricsなど、オープンソースのソフトウェアである。
少なくとも年に1回は、非常に強力なサーバ上で最低10日間のプロセスであるスクリプト全体を実行して、新しいデータセットを生成します。
その後、Amazon S3で公開し、研究者のリファレンスとして利用できることを保証します。
2024年3月2日に公開された2.2Gbの最新アーカイブには、クラス毎に48のメトリクスを持つ532KのJavaクラスが含まれています。
関連論文リスト
- MIML library: a Modular and Flexible Library for Multi-instance
Multi-label Learning [0.0]
MIMLライブラリは、Multi-instance Multi-label (MIML)学習のための分類アルゴリズムを開発し、テストし、比較するJavaソフトウェアツールである。
このライブラリには43のアルゴリズムが含まれており、データ管理とパーティショニング、ホールドアウト、クロスバリデーションのための特定のフォーマットと機能を提供している。
論文 参考訳(メタデータ) (2024-02-12T20:46:47Z) - GitAgent: Facilitating Autonomous Agent with GitHub by Tool Extension [81.44231422624055]
さまざまなタスクを実行できる外部ツールを備えた大規模言語モデル(LLM)に焦点が当てられている。
本稿では,GitHubから自動ツール拡張を実現するエージェントであるGitAgentを紹介する。
論文 参考訳(メタデータ) (2023-12-28T15:47:30Z) - ML-Bench: Large Language Models Leverage Open-source Libraries for
Machine Learning Tasks [75.12666425091702]
大規模な言語モデルは、コード生成ベンチマークで有望なパフォーマンスを示している。
この研究は、LLMがオープンソースのライブラリを使用して機械学習タスクを終了する、新たな評価設定を提案することを目的としている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - npm-follower: A Complete Dataset Tracking the NPM Ecosystem [5.931961380320841]
npm-followerは、すべてのパッケージとバージョンのメタデータとコードを公開時にアーカイブする、データセットとクローリングアーキテクチャである。
現在、データセットには3500万以上のパッケージが含まれており、月間100万バージョンの割合で成長している。
論文 参考訳(メタデータ) (2023-08-24T04:05:49Z) - A Language Model of Java Methods with Train/Test Deduplication [5.529795221640365]
このツールデモでは、Javaソースコードの言語モデルの研究ツールキットが紹介されている。
対象読者には、Javaのサブルーチン、ステートメント、変数の粒度レベルでの問題を研究する研究者も含まれる。
論文 参考訳(メタデータ) (2023-05-15T00:22:02Z) - SequeL: A Continual Learning Library in PyTorch and JAX [50.33956216274694]
SequeLは継続学習のためのライブラリで、PyTorchとJAXフレームワークの両方をサポートする。
それは、正規化ベースのアプローチ、リプレイベースのアプローチ、ハイブリッドアプローチを含む、幅広い連続学習アルゴリズムのための統一インターフェースを提供する。
私たちはSequeLをオープンソースライブラリとしてリリースし、研究者や開発者が自身の目的で簡単にライブラリを実験し拡張することができます。
論文 参考訳(メタデータ) (2023-04-21T10:00:22Z) - JEMMA: An Extensible Java Dataset for ML4Code Applications [34.76698017961728]
我々は、機械学習・フォー・ソース・コード(ML4Code)をターゲットにした大規模で多様な高品質なデータセットであるJEMMAを紹介した。
JEMMAの目標は、ソースコードモデルとタスクを試すためのビルディングブロックを提供することで、ML4Codeへの参入障壁を低くすることにあります。
JEMMAには、メタデータ、表現(コードトークン、AST、グラフなど)、いくつかのプロパティといった、かなり多くの事前処理された情報が含まれている。
論文 参考訳(メタデータ) (2022-12-18T17:04:14Z) - Repro: An Open-Source Library for Improving the Reproducibility and
Usability of Publicly Available Research Code [74.28810048824519]
Reproは、研究コードのユーザビリティ向上を目的とした、オープンソースのライブラリである。
Dockerコンテナ内で研究者がリリースしたソフトウェアを実行するための軽量Python APIを提供する。
論文 参考訳(メタデータ) (2022-04-29T01:54:54Z) - Datasets: A Community Library for Natural Language Processing [55.48866401721244]
データセットは、現代のNLPのためのコミュニティライブラリである。
このライブラリには650以上のユニークなデータセットが含まれており、250以上のコントリビュータを抱えており、さまざまな新しいクロスデータセット研究プロジェクトを支援している。
論文 参考訳(メタデータ) (2021-09-07T03:59:22Z) - LabelGit: A Dataset for Software Repositories Classification using
Attributed Dependency Graphs [11.523471275501857]
LabelGitと呼ばれるGitHubプロジェクトの新しいデータセットを作成します。
私たちのデータセットは、依存関係グラフや識別子からのソースコードニューラル表現など、ソースコードからの直接的な情報を使用します。
プロキシに頼らず、ソースコード全体を分類するために使用するソリューションの開発を支援することを願っています。
論文 参考訳(メタデータ) (2021-03-16T07:28:58Z) - SacreROUGE: An Open-Source Library for Using and Developing
Summarization Evaluation Metrics [74.28810048824519]
SacreROUGEは、要約評価メトリクスの使用と開発のためのオープンソースライブラリである。
このライブラリは、既存の評価メトリクスの公式実装に関するPythonラッパーを提供する。
ライブラリに実装されたメトリックが、人間による注釈付き判断とどの程度の相関があるかを評価する機能を提供する。
論文 参考訳(メタデータ) (2020-07-10T13:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。