論文の概要: Automated Classification of Source Code Changes Based on Metrics Clustering in the Software Development Process
- arxiv url: http://arxiv.org/abs/2602.14591v1
- Date: Mon, 16 Feb 2026 09:47:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.35365
- Title: Automated Classification of Source Code Changes Based on Metrics Clustering in the Software Development Process
- Title(参考訳): ソフトウェア開発プロセスにおけるメトリクスクラスタリングに基づくソースコード変更の自動分類
- Authors: Evgenii Kniazev,
- Abstract要約: 本稿では,ソフトウェア開発プロセス中のソースコード変更を自動分類する手法を提案する。
この方法は2つのステップから構成される: コードの変更ごとに計算された計量ベクトルのクラスタリング、続いて得られたクラスタのエキスパートマッピングである。
クラスタへの変更の分散は自動的に行われ、クラスタのクラスへのマッピングは専門家によって実行される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an automated method for classifying source code changes during the software development process based on clustering of change metrics. The method consists of two steps: clustering of metric vectors computed for each code change, followed by expert mapping of the resulting clusters to predefined change classes. The distribution of changes into clusters is performed automatically, while the mapping of clusters to classes is carried out by an expert. Automation of the distribution step substantially reduces the time required for code change review. The k-means algorithm with a cosine similarity measure between metric vectors is used for clustering. Eleven source code metrics are employed, covering lines of code, cyclomatic complexity, file counts, interface changes, and structural changes. The method was validated on five software systems, including two open-source projects (Subversion and NHibernate), and demonstrated classification purity of P_C = 0.75 +/- 0.05 and entropy of E_C = 0.37 +/- 0.06 at a significance level of 0.05.
- Abstract(参考訳): 本稿では,変更メトリクスのクラスタリングに基づいて,ソフトウェア開発プロセス中のソースコード変更を自動分類する手法を提案する。
メソッドは2つのステップから構成される: コードの変更毎に計算されたメトリックベクトルのクラスタリング、続いて、得られたクラスタを事前に定義された変更クラスに専門家マッピングする。
クラスタへの変更の分散は自動的に行われ、クラスタのクラスへのマッピングは専門家によって実行される。
配布ステップの自動化は、コードの変更レビューに必要な時間を大幅に削減します。
計量ベクトル間のコサイン類似度尺度を持つk平均アルゴリズムをクラスタリングに使用する。
11のソースコードメトリクスが採用され、コードの行数、サイクロマティックな複雑さ、ファイル数、インターフェースの変更、構造的な変更をカバーしている。
この方法は2つのオープンソースプロジェクト(SubversionとNHibernate)を含む5つのソフトウェアシステムで検証され、P_C = 0.75 +/- 0.05の分類純度とE_C = 0.37 +/- 0.06のエントロピーを0.05の意義レベルで証明した。
関連論文リスト
- Categorical Data Clustering via Value Order Estimated Distance Metric Learning [53.28598689867732]
本稿では,分類属性を直感的に表現する新しい順序距離計量学習手法を提案する。
新しい共同学習パラダイムが開発され、クラスタリングとオーダー距離メートル法学習の代替となる。
提案手法は分類および混合データセットのクラスタリング精度に優れる。
論文 参考訳(メタデータ) (2024-11-19T08:23:25Z) - DIVA: A Dirichlet Process Mixtures Based Incremental Deep Clustering
Algorithm via Variational Auto-Encoder [26.93881074862267]
本稿では,ガウスの無限混合を先行として利用する非パラメトリックディープクラスタリングフレームワークを提案する。
このフレームワークをDirichlet ProcessベースのインクリメンタルディープクラスタリングフレームワークであるDIVAと名付けます。
我々のフレームワークは最先端のベースラインより優れており、動的に変化する特徴を持つ複雑なデータの分類において優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-23T13:44:12Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Autoencoder Based Iterative Modeling and Multivariate Time-Series
Subsequence Clustering Algorithm [0.0]
本稿では、過渡時系列データ(MTSD)における変化点の検出と対応する部分列の同定のためのアルゴリズムを提案する。
我々は、リカレントニューラルネットワーク(RNN)ベースのオートエンコーダ(AE)を用いて、入ってくるデータに基づいて反復的に訓練する。
同定されたサブシーケンスのモデルを保存し、繰り返しサブシーケンスの認識と高速オフラインクラスタリングに使用する。
論文 参考訳(メタデータ) (2022-09-09T09:59:56Z) - The Automatic Quasi-clique Merger algorithm (AQCM) [0.0]
Automatic Quasi-Clique Mergerアルゴリズムは、QCMという名前で発表された初期の研究から適応された新しいアルゴリズムです。
本稿では,準斜晶凝集アプローチの一般的な考え方を示し,aqcmアルゴリズムの数学的ステップの詳細を述べるとともに,新しい手法の背景にある動機について述べる。
論文 参考訳(メタデータ) (2021-03-06T20:01:59Z) - Gradient Coding with Dynamic Clustering for Straggler-Tolerant
Distributed Learning [55.052517095437]
勾配降下(GD)は、複数の労働者にデータセットを分散することで学習タスクの並列化に広く用いられている。
分散同期gdにおけるイテレーション完了時間ごとの重要なパフォーマンスボトルネックは$straggling$ workersである。
コード化された分散技術は、最近ストラグラーを緩和し、労働者に冗長な計算を割り当てることでgdイテレーションを高速化するために導入された。
本稿では,従来のトラグリング動作に依存する可能性のあるコードの中から,冗長なデータを労働者に割り当てて選択する動的GC方式を提案する。
論文 参考訳(メタデータ) (2021-03-01T18:51:29Z) - Sequential changepoint detection in classification data under label
shift [1.6752182911522522]
逐次保存・ラベルなし分類データにおける分布変化を検出することの問題点を考察する。
シミュレーションでは,このラベルシフト設定において,本手法が他の検出手順より優れていることを示す。
論文 参考訳(メタデータ) (2020-09-18T02:26:46Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。