Fugu-MT 論文翻訳(概要): CAM: A Collection of Snapshots of GitHub Java Repositories Together with Metrics

論文の概要: CAM: A Collection of Snapshots of GitHub Java Repositories Together with Metrics

arxiv url: http://arxiv.org/abs/2403.08488v1
Date: Wed, 13 Mar 2024 12:52:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 14:43:51.118602
Title: CAM: A Collection of Snapshots of GitHub Java Repositories Together with Metrics
Title（参考訳）: CAM: GitHub Javaリポジトリのスナップショット集メートル法
Authors: Yegor Bugayenko
Abstract要約: 2024年3月2日に公開された2.2Gbの最新アーカイブには、クラス毎に48のメトリクスを持つ532KのJavaクラスが含まれています。少なくとも年に1回は、非常に強力なサーバ上で最低10日間のプロセスであるスクリプト全体を実行して、新しいデータセットを生成します。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Even though numerous researchers require stable datasets along with source code and basic metrics calculated on them, neither GitHub nor any other code hosting platform provides such a resource. Consequently, each researcher must download their own data, compute the necessary metrics, and then publish the dataset somewhere to ensure it remains accessible indefinitely. Our CAM (stands for ``Classes and Metrics'') project addresses this need. It is an open-source software capable of cloning Java repositories from GitHub, filtering out unnecessary files, parsing Java classes, and computing metrics such as Cyclomatic Complexity, Halstead Effort and Volume, C\&K metrics, Maintainability Metrics, LCOM5 and HND, as well as some Git-based Metrics. At least once a year, we execute the entire script, a process which requires a minimum of ten days on a very powerful server, to generate a new dataset. Subsequently, we publish it on Amazon S3, thereby ensuring its availability as a reference for researchers. The latest archive of 2.2Gb that we published on the 2nd of March, 2024 includes 532K Java classes with 48 metrics for each class.
Abstract（参考訳）: 多くの研究者がソースコードや基本的なメトリクスとともに安定したデータセットを必要としているが、GitHubも他のコードホスティングプラットフォームもそのようなリソースを提供していない。その結果、各研究者は自身のデータをダウンロードし、必要なメトリクスを計算し、データセットをどこかに公開して、いつまでもアクセス可能であることを保証する必要がある。私たちのCAM( ``Classes and Metrics'' の略)プロジェクトは、このニーズに対処します。これは、GitHubからJavaリポジトリをクローンし、不要なファイルをフィルタリングし、Javaクラスを解析し、Cyclomatic Complexity、Halstead Effort and Volume、C\&Kメトリクス、Cantainability Metrics、LCOM5、HNDといった計算メトリクスや、GitベースのMetricsなど、オープンソースのソフトウェアである。少なくとも年に1回は、非常に強力なサーバ上で最低10日間のプロセスであるスクリプト全体を実行して、新しいデータセットを生成します。その後、Amazon S3で公開し、研究者のリファレンスとして利用できることを保証します。 2024年3月2日に公開された2.2Gbの最新アーカイブには、クラス毎に48のメトリクスを持つ532KのJavaクラスが含まれています。

関連論文リスト

RepoGenesis: Benchmarking End-to-End Microservice Generation from Readme to Repository [52.98970048197381]
RepoGenesisは、リポジトリレベルのエンドツーエンドWebマイクロサービス生成のための、最初の多言語ベンチマークである。 18のドメインと11のフレームワークに106のリポジトリ(60のPython、46のJava)があり、1,258のAPIエンドポイントと2,335のテストケースが検証されている。その結果、高いAC(最大73.91%)とDSR(最大100%)にもかかわらず、最高のパフォーマンスのシステムはPythonで23.67%のPass@1、Javaで21.45%しか達成していないことが明らかになった。
論文参考訳（メタデータ） (2026-01-20T13:19:20Z)
SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
MigrationBench: Repository-Level Code Migration Benchmark from Java 8 [18.648973521771396]
MigrationBenchは、Java 8 ドルから最新の長期サポート (LTS) バージョン (Java $117 ドル、21 ドル) への移行のための包括的なベンチマークである。この課題に対する大規模言語モデル(LLM)の厳密で標準化された評価を容易にするための総合的な評価フレームワークを提供する。 Claude-3.5-Sonnet-v2 で選択されたサブセットに対して、SD-Feedback は、それぞれ、最小と最大のマイグレーションに対して、62.33%$と27.33%$成功率(pass@1)を達成している。
論文参考訳（メタデータ） (2025-05-14T17:11:23Z)
SWE-smith: Scaling Data for Software Engineering Agents [100.30273957706237]
SWE-smithは、大規模なソフトウェアエンジニアリングトレーニングデータを生成するための新しいパイプラインである。 128のGitHubリポジトリからソースされた50kインスタンスのデータセットを作成します。我々はSWE-agent-LM-32Bをトレーニングし、SWE-bench Verifiedベンチマークで40.2%のPass@1リゾルバ率を達成した。
論文参考訳（メタデータ） (2025-04-30T16:56:06Z)
SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。 SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文参考訳（メタデータ） (2025-02-10T21:28:15Z)
SEART Data Hub: Streamlining Large-Scale Source Code Mining and Pre-Processing [13.717170962455526]
私たちはSEART Data HubというWebアプリケーションを紹介します。これは、公開GitHubリポジトリからマイニングされたコードを特徴とする大規模データセットを簡単に構築し、事前処理できるWebアプリケーションです。簡単なWebインターフェースを通じて、研究者はマイニング基準と、実行したい特定の前処理ステップを指定できる。リクエストを提出すると、ユーザは数時間以内に、必要なデータセットのダウンロードリンク付きのメールを受け取る。
論文参考訳（メタデータ） (2024-09-27T11:42:19Z)
Long Code Arena: a Set of Benchmarks for Long-Context Code Models [75.70507534322336]
Long Code Arenaは、プロジェクト全体のコンテキストを必要とするコード処理タスクのための6つのベンチマークスイートである。これらのタスクは、ライブラリベースのコード生成、CIビルドの修復、プロジェクトレベルのコード補完、コミットメッセージ生成、バグローカライゼーション、モジュールの要約といった、コード処理のさまざまな側面をカバーする。各タスクに対して、テスト用の手作業によるデータセット、評価スイート、オープンソースのベースラインソリューションを提供しています。
論文参考訳（メタデータ） (2024-06-17T14:58:29Z)
VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。 VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文参考訳（メタデータ） (2024-06-11T16:15:06Z)
MIML library: a Modular and Flexible Library for Multi-instance Multi-label Learning [0.0]
MIMLライブラリは、Multi-instance Multi-label (MIML)学習のための分類アルゴリズムを開発し、テストし、比較するJavaソフトウェアツールである。このライブラリには43のアルゴリズムが含まれており、データ管理とパーティショニング、ホールドアウト、クロスバリデーションのための特定のフォーマットと機能を提供している。
論文参考訳（メタデータ） (2024-02-12T20:46:47Z)
GitAgent: Facilitating Autonomous Agent with GitHub by Tool Extension [81.44231422624055]
さまざまなタスクを実行できる外部ツールを備えた大規模言語モデル(LLM)に焦点が当てられている。本稿では,GitHubから自動ツール拡張を実現するエージェントであるGitAgentを紹介する。
論文参考訳（メタデータ） (2023-12-28T15:47:30Z)
A Language Model of Java Methods with Train/Test Deduplication [5.529795221640365]
このツールデモでは、Javaソースコードの言語モデルの研究ツールキットが紹介されている。対象読者には、Javaのサブルーチン、ステートメント、変数の粒度レベルでの問題を研究する研究者も含まれる。
論文参考訳（メタデータ） (2023-05-15T00:22:02Z)
SequeL: A Continual Learning Library in PyTorch and JAX [50.33956216274694]
SequeLは継続学習のためのライブラリで、PyTorchとJAXフレームワークの両方をサポートする。それは、正規化ベースのアプローチ、リプレイベースのアプローチ、ハイブリッドアプローチを含む、幅広い連続学習アルゴリズムのための統一インターフェースを提供する。私たちはSequeLをオープンソースライブラリとしてリリースし、研究者や開発者が自身の目的で簡単にライブラリを実験し拡張することができます。
論文参考訳（メタデータ） (2023-04-21T10:00:22Z)
JEMMA: An Extensible Java Dataset for ML4Code Applications [34.76698017961728]
我々は、機械学習・フォー・ソース・コード(ML4Code)をターゲットにした大規模で多様な高品質なデータセットであるJEMMAを紹介した。 JEMMAの目標は、ソースコードモデルとタスクを試すためのビルディングブロックを提供することで、ML4Codeへの参入障壁を低くすることにあります。 JEMMAには、メタデータ、表現(コードトークン、AST、グラフなど)、いくつかのプロパティといった、かなり多くの事前処理された情報が含まれている。
論文参考訳（メタデータ） (2022-12-18T17:04:14Z)
Repro: An Open-Source Library for Improving the Reproducibility and Usability of Publicly Available Research Code [74.28810048824519]
Reproは、研究コードのユーザビリティ向上を目的とした、オープンソースのライブラリである。 Dockerコンテナ内で研究者がリリースしたソフトウェアを実行するための軽量Python APIを提供する。
論文参考訳（メタデータ） (2022-04-29T01:54:54Z)
Datasets: A Community Library for Natural Language Processing [55.48866401721244]
データセットは、現代のNLPのためのコミュニティライブラリである。このライブラリには650以上のユニークなデータセットが含まれており、250以上のコントリビュータを抱えており、さまざまな新しいクロスデータセット研究プロジェクトを支援している。
論文参考訳（メタデータ） (2021-09-07T03:59:22Z)
LabelGit: A Dataset for Software Repositories Classification using Attributed Dependency Graphs [11.523471275501857]
LabelGitと呼ばれるGitHubプロジェクトの新しいデータセットを作成します。私たちのデータセットは、依存関係グラフや識別子からのソースコードニューラル表現など、ソースコードからの直接的な情報を使用します。プロキシに頼らず、ソースコード全体を分類するために使用するソリューションの開発を支援することを願っています。
論文参考訳（メタデータ） (2021-03-16T07:28:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。