論文の概要: Comparing Cluster-Based Cross-Validation Strategies for Machine Learning Model Evaluation
- arxiv url: http://arxiv.org/abs/2507.22299v1
- Date: Wed, 30 Jul 2025 00:13:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:17.904726
- Title: Comparing Cluster-Based Cross-Validation Strategies for Machine Learning Model Evaluation
- Title(参考訳): 機械学習モデル評価のためのクラスタベースクロスバリデーション戦略の比較
- Authors: Afonso Martini Spezia, Mariana Recamonde-Mendoza,
- Abstract要約: クロスバリデーションは機械学習において基本的な役割を担い、モデルパフォーマンスの堅牢な評価を可能にし、トレーニングや検証データに対する過大評価を防止する。
本研究の目的は,クラスタリングアルゴリズムの性能を解析することにより,クラスタベースのクロスバリデーション戦略の調査を深めることである。
ミニバッチK平均とクラス階層化を組み合わせた新しいクロスバリデーション手法を提案する。
- 参考スコア(独自算出の注目度): 0.6215404942415159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-validation plays a fundamental role in Machine Learning, enabling robust evaluation of model performance and preventing overestimation on training and validation data. However, one of its drawbacks is the potential to create data subsets (folds) that do not adequately represent the diversity of the original dataset, which can lead to biased performance estimates. The objective of this work is to deepen the investigation of cluster-based cross-validation strategies by analyzing the performance of different clustering algorithms through experimental comparison. Additionally, a new cross-validation technique that combines Mini Batch K-Means with class stratification is proposed. Experiments were conducted on 20 datasets (both balanced and imbalanced) using four supervised learning algorithms, comparing cross-validation strategies in terms of bias, variance, and computational cost. The technique that uses Mini Batch K-Means with class stratification outperformed others in terms of bias and variance on balanced datasets, though it did not significantly reduce computational cost. On imbalanced datasets, traditional stratified cross-validation consistently performed better, showing lower bias, variance, and computational cost, making it a safe choice for performance evaluation in scenarios with class imbalance. In the comparison of different clustering algorithms, no single algorithm consistently stood out as superior. Overall, this work contributes to improving predictive model evaluation strategies by providing a deeper understanding of the potential of cluster-based data splitting techniques and reaffirming the effectiveness of well-established strategies like stratified cross-validation. Moreover, it highlights perspectives for increasing the robustness and reliability of model evaluations, especially in datasets with clustering characteristics.
- Abstract(参考訳): クロスバリデーションは機械学習において基本的な役割を担い、モデルパフォーマンスの堅牢な評価を可能にし、トレーニングや検証データに対する過大評価を防止する。
しかし、その欠点の1つは、元のデータセットの多様性を適切に表現しないデータサブセット(フォールド)を作成する可能性であり、バイアスのあるパフォーマンス推定につながる可能性がある。
本研究の目的は、異なるクラスタリングアルゴリズムの性能を実験的に比較することにより、クラスタベースのクロスバリデーション戦略の調査を深めることである。
さらに,Mini Batch K-Meansとクラス階層化を組み合わせた新しいクロスバリデーション手法を提案する。
4つの教師付き学習アルゴリズムを用いて、20のデータセット(バランスと不均衡の両方)で実験を行い、バイアス、分散、計算コストの点からクロスバリデーション戦略を比較した。
クラス階層化でMini Batch K-Meansを使用する技術は、計算コストを大幅に削減することはなかったが、バランスの取れたデータセットのバイアスや分散という点で、他よりも優れていた。
不均衡なデータセットでは、従来の階層化されたクロスバリデーションが一貫して向上し、バイアス、分散、計算コストが低くなり、クラス不均衡のシナリオのパフォーマンス評価に安全な選択肢となった。
異なるクラスタリングアルゴリズムの比較では、どのアルゴリズムも常に優位に立たなかった。
この研究は、クラスタベースのデータ分割技術の可能性をより深く理解し、階層化されたクロスバリデーションのような確立された戦略の有効性を再確認することで、予測モデル評価戦略の改善に寄与する。
さらに、特にクラスタリング特性を持つデータセットにおいて、モデル評価の堅牢性と信頼性を高めるための視点を強調している。
関連論文リスト
- A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - Machine Learning Based Missing Values Imputation in Categorical Datasets [2.5611256859404983]
この研究では、分類データセットのギャップを埋めるための機械学習アルゴリズムの使用について検討した。
Error Correction Output Codesフレームワークを使用して構築されたアンサンブルモデルに重点が置かれた。
大量のラベル付きデータの要求を含む、これらの奨励的な結果にもかかわらず、データ計算の欠如に対する深い学習には障害がある。
論文 参考訳(メタデータ) (2023-06-10T03:29:48Z) - A review of ensemble learning and data augmentation models for class
imbalanced problems: combination, implementation and evaluation [0.196629787330046]
分類問題におけるクラス不均衡 (CI) は、あるクラスに属する観測回数が他のクラスよりも低い場合に生じる。
本稿では,ベンチマークCI問題に対処するために使用されるデータ拡張とアンサンブル学習手法を評価する。
論文 参考訳(メタデータ) (2023-04-06T04:37:10Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - BALanCe: Deep Bayesian Active Learning via Equivalence Class Annealing [7.9107076476763885]
BALanCeは、不確実性推定の効果を緩和する、深いアクティブな学習フレームワークである。
Batch-BALanCeは、逐次アルゴリズムのバッチ設定への一般化である。
Batch-BALanCeは、アクティブな学習のためのいくつかのベンチマークデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-12-27T15:38:27Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Hybrid Ensemble optimized algorithm based on Genetic Programming for
imbalanced data classification [0.0]
本稿では,2種類の不均衡データ分類のための遺伝的プログラミング(GP)に基づくハイブリッドアンサンブルアルゴリズムを提案する。
実験結果から,提案手法をトレーニングセットのサイズで指定したデータセット上での性能は,マイノリティクラス予測の他の次元よりも40%,50%高い精度を示した。
論文 参考訳(メタデータ) (2021-06-02T14:14:38Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Performance Evaluation of Adversarial Attacks: Discrepancies and
Solutions [51.8695223602729]
機械学習モデルの堅牢性に挑戦するために、敵対攻撃方法が開発されました。
本稿では,Piece-wise Sampling Curving(PSC)ツールキットを提案する。
psc toolkitは計算コストと評価効率のバランスをとるオプションを提供する。
論文 参考訳(メタデータ) (2021-04-22T14:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。