論文の概要: SQuaD: The Software Quality Dataset
- arxiv url: http://arxiv.org/abs/2511.11265v1
- Date: Fri, 14 Nov 2025 12:57:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.611776
- Title: SQuaD: The Software Quality Dataset
- Title(参考訳): SQuaD: ソフトウェア品質データセット
- Authors: Mikel Robredo, Matteo Esposito, Davide Taibi, Rafael Peñaloza, Valentina Lenarduzzi,
- Abstract要約: ソフトウェア品質データセット(Software Quality dataset、SQuaD)は、さまざまなエコシステムにわたる450の成熟したオープンソースプロジェクトから抽出された、ソフトウェア品質メトリクスのタイムアウェアなコレクションである。
9つの最先端の静的解析ツールを統合することで、SQuaDは700以上のユニークなメトリクスをメソッド、クラス、ファイル、プロジェクトレベルで統合する。
- 参考スコア(独自算出の注目度): 3.9861000060030993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software quality research increasingly relies on large-scale datasets that measure both the product and process aspects of software systems. However, existing resources often focus on limited dimensions, such as code smells, technical debt, or refactoring activity, thereby restricting comprehensive analyses across time and quality dimensions. To address this gap, we present the Software Quality Dataset (SQuaD), a multi-dimensional, time-aware collection of software quality metrics extracted from 450 mature open-source projects across diverse ecosystems, including Apache, Mozilla, FFmpeg, and the Linux kernel. By integrating nine state-of-the-art static analysis tools, i.e., SonarQube, CodeScene, PMD, Understand, CK, JaSoMe, RefactoringMiner, RefactoringMiner++, and PyRef, our dataset unifies over 700 unique metrics at method, class, file, and project levels. Covering a total of 63,586 analyzed project releases, SQuaD also provides version control and issue-tracking histories, software vulnerability data (CVE/CWE), and process metrics proven to enhance Just-In-Time (JIT) defect prediction. The SQuaD enables empirical research on maintainability, technical debt, software evolution, and quality assessment at unprecedented scale. We also outline emerging research directions, including automated dataset updates and cross-project quality modeling to support the continuous evolution of software analytics. The dataset is publicly available on ZENODO (DOI: 10.5281/zenodo.17566690).
- Abstract(参考訳): ソフトウェアの品質調査は、ソフトウェアシステムの製品とプロセスの両方を計測する大規模なデータセットにますます依存している。
しかしながら、既存のリソースはコードの臭いや技術的負債、リファクタリングアクティビティといった限られた次元に重点を置いており、それによって時間と品質の側面にわたって包括的な分析を制限します。
このギャップに対処するために、ソフトウェア品質データセット(Software Quality Dataset, SQuaD)を紹介します。これは、Apache、Mozilla、FFmpeg、Linuxカーネルなど、さまざまなエコシステムにわたる450の成熟したオープンソースプロジェクトから抽出された、多次元でタイムアウェアなソフトウェア品質メトリクスの収集です。
SonarQube、CodeScene、PMD、Understand、CK、JaSoMe、RefactoringMiner、RefactoringMiner++、PyRefの9つの最先端静的分析ツールを統合することで、私たちのデータセットはメソッド、クラス、ファイル、プロジェクトレベルで700以上のユニークなメトリクスを統一します。
SQuaDは、合計63,586のプロジェクトリリースをカバーし、バージョン管理とイシュートラッキング履歴、ソフトウェア脆弱性データ(CVE/CWE)、Just-In-Time(JIT)欠陥予測を強化することが証明されたプロセスメトリクスも提供する。
SQuaDは、保守性、技術的負債、ソフトウェア進化、そして前例のない規模の品質評価に関する経験的な研究を可能にする。
また、ソフトウェア分析の継続的進化をサポートするために、自動データセット更新やプロジェクト間品質モデリングなど、新たな研究方向についても概説しています。
データセットはZENODO(DOI: 10.5281/zenodo.17566690)で公開されている。
関連論文リスト
- Uncovering Scientific Software Sustainability through Community Engagement and Software Quality Metrics [0.0]
本稿では,GitHubにホストされている科学オープンソースソフトウェア(Sci-OSS)プロジェクトの持続可能性について検討する。
文献からメトリクスを保存し、著名な10のSci-OSSプロジェクトからデータをマイニングするために、サステナビリティをマップします。
私たちの可視化と分析手法は、研究者、資金提供者、開発者に対して、長期的なソフトウェアサステナビリティに関する重要な洞察を提供します。
論文 参考訳(メタデータ) (2025-11-11T05:34:27Z) - Identity resolution of software metadata using Large Language Models [0.0]
本稿では,ソフトウェアメタデータ識別の課題に対する命令調整型大規模言語モデルの評価について述べる。
我々は、人間に注釈を付けた金の標準に対して複数のモデルをベンチマークし、あいまいなケースでそれらの振る舞いを調べ、高信頼度自動決定のための契約ベースのプロキシを導入した。
論文 参考訳(メタデータ) (2025-05-29T14:47:31Z) - Evolution analysis of software quality metrics in an open-source java project: A case study on TestNG [0.0]
本研究では,オープンソースJavaテスティングフレームワークTestNGの5つの連続したバージョンにおけるソフトウェア品質指標の進化を分析する。
その結果、TestNGはより安定してメンテナンス可能なフレームワークに成熟し、継続的な開発とアーキテクチャの改善を反映していることがわかった。
論文 参考訳(メタデータ) (2025-05-28T21:34:27Z) - The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources [100.23208165760114]
ファンデーションモデル開発は、急速に成長するコントリビュータ、科学者、アプリケーションを引き付けている。
責任ある開発プラクティスを形成するために、我々はFoundation Model Development Cheatsheetを紹介します。
論文 参考訳(メタデータ) (2024-06-24T15:55:49Z) - Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - "Project smells" -- Experiences in Analysing the Software Quality of ML
Projects with mllint [6.0141405230309335]
ソフトウェアの品質に関するより包括的な視点として,プロジェクトマネジメントにおける欠陥を考慮に入れた,プロジェクト臭いという新しい概念を紹介します。
オープンソースの静的解析ツールmllintも、これらの検出と緩和を支援するために実装されている。
この結果から,現在開発中のプロジェクトのニーズに適合する文脈対応静的解析ツールの必要性が示唆された。
論文 参考訳(メタデータ) (2022-01-20T15:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。