論文の概要: Fusion Sampling Validation in Data Partitioning for Machine Learning
- arxiv url: http://arxiv.org/abs/2508.01325v1
- Date: Sat, 02 Aug 2025 11:32:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.823129
- Title: Fusion Sampling Validation in Data Partitioning for Machine Learning
- Title(参考訳): 機械学習のためのデータ分割における融合サンプリング検証
- Authors: Christopher Godwin Udomboso, Caston Sigauke, Ini Adinya,
- Abstract要約: 本研究では、単純なランダムサンプリング(SRS)とK-Fold Cross-Validation(KFCV)を組み合わせたハイブリッドモデルFusion Smpling Validation(FSV)を提案する。
FSVは、バイアスを最小化し、SRSとKFCVの精度をマージすることを目的としている。
データパーティショニング、特にリソース制約のある環境では、精度と信頼性が優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective data partitioning is known to be crucial in machine learning. Traditional cross-validation methods like K-Fold Cross-Validation (KFCV) enhance model robustness but often compromise generalisation assessment due to high computational demands and extensive data shuffling. To address these issues, the integration of the Simple Random Sampling (SRS), which, despite providing representative samples, can result in non-representative sets with imbalanced data. The study introduces a hybrid model, Fusion Sampling Validation (FSV), combining SRS and KFCV to optimise data partitioning. FSV aims to minimise biases and merge the simplicity of SRS with the accuracy of KFCV. The study used three datasets of 10,000, 50,000, and 100,000 samples, generated with a normal distribution (mean 0, variance 1) and initialised with seed 42. KFCV was performed with five folds and ten repetitions, incorporating a scaling factor to ensure robust performance estimation and generalisation capability. FSV integrated a weighted factor to enhance performance and generalisation further. Evaluations focused on mean estimates (ME), variance estimates (VE), mean squared error (MSE), bias, the rate of convergence for mean estimates (ROC\_ME), and the rate of convergence for variance estimates (ROC\_VE). Results indicated that FSV consistently outperformed SRS and KFCV, with ME values of 0.000863, VE of 0.949644, MSE of 0.952127, bias of 0.016288, ROC\_ME of 0.005199, and ROC\_VE of 0.007137. FSV demonstrated superior accuracy and reliability in data partitioning, particularly in resource-constrained environments and extensive datasets, providing practical solutions for effective machine learning implementations.
- Abstract(参考訳): 効果的なデータパーティショニングは機械学習において重要であることが知られている。
K-Fold Cross-Validation (KFCV)のような従来のクロスバリデーション手法はモデルロバスト性を高めるが、高い計算要求と広範なデータシャッフルによる一般化評価を妥協することが多い。
これらの問題に対処するため、SRS(Simple Random Smpling)の統合は、代表的なサンプルを提供するにもかかわらず、不均衡なデータを持つ非表現集合をもたらす可能性がある。
この研究は、データ分割を最適化するためにSRSとKFCVを組み合わせたハイブリッドモデルFusion Sampling Validation (FSV)を紹介する。
FSVは、バイアスを最小化し、SRSとKFCVの精度をマージすることを目的としている。
この研究では、通常の分布(平均0、分散1)で生成され、シード42で初期化される1万、5万、10万のサンプルからなる3つのデータセットを使用した。
KFCVは5つの折り畳みと10の繰り返しで実行され、堅牢な性能推定と一般化能力を保証するためにスケーリング係数が組み込まれた。
FSVは重み付き因子を統合して性能を高め、さらに一般化した。
平均推定値(ME),分散推定値(VE),平均二乗誤差(MSE),バイアス,平均推定値の収束率(ROC\_ME),分散推定値の収束率(ROC\_VE)に着目した。
その結果, FSV は SRS と KFCV を一貫して上回り, ME 値は 0.000863, VE は 0.949644, MSE は 0.952127, バイアス 0.016288, ROC\_ME は 0.005199, ROC\_VE は 0.007137 であった。
FSVは、特にリソース制約のある環境や広範なデータセットにおいて、データのパーティショニングにおいて優れた精度と信頼性を示し、効果的な機械学習実装のための実用的なソリューションを提供した。
関連論文リスト
- FedCVD++: Communication-Efficient Federated Learning for Cardiovascular Risk Prediction with Parametric and Non-Parametric Model Optimization [3.9750281362522237]
心臓血管疾患は毎年1700万人以上の死者を出している。
強化されたフェデレート学習フレームワークであるFedCVD++を紹介する。
FedCVD++は、冠状心疾患のリスク予測のためにパラメトリックモデル(論理回帰、SVM、ニューラルネットワーク)と非パラメトリックモデル(ランサムフォレスト、XGBoost)を統合する。
論文 参考訳(メタデータ) (2025-07-30T06:17:33Z) - Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - Foundation for unbiased cross-validation of spatio-temporal models for species distribution modeling [2.6862667248315386]
種別分布モデル (SDM) はしばしば空間自己相関 (SAC) に悩まされ、性能推定に偏りが生じる。
提案手法は, ランダム分割, 空間的ブロッキング, 環境的スキーム, 新たな時間的手法である。
論文 参考訳(メタデータ) (2025-01-27T23:02:05Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Chasing Fairness Under Distribution Shift: A Model Weight Perturbation
Approach [72.19525160912943]
まず,分布シフト,データ摂動,モデルウェイト摂動の関連性を理論的に検証した。
次に、ターゲットデータセットの公平性を保証するのに十分な条件を分析します。
これらの十分な条件により、ロバストフェアネス正則化(RFR)を提案する。
論文 参考訳(メタデータ) (2023-03-06T17:19:23Z) - FedSkip: Combatting Statistical Heterogeneity with Federated Skip
Aggregation [95.85026305874824]
我々はFedSkipと呼ばれるデータ駆動型アプローチを導入し、フェデレーション平均化を定期的にスキップし、ローカルモデルをクロスデバイスに分散することで、クライアントの最適化を改善する。
我々は、FedSkipがはるかに高い精度、より良いアグリゲーション効率、競合する通信効率を達成することを示すために、さまざまなデータセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2022-12-14T13:57:01Z) - Fair and efficient contribution valuation for vertical federated
learning [49.50442779626123]
フェデレートラーニング(Federated Learning)は、データを共有することなく、分散データソース上で機械学習モデルをトレーニングするための一般的な技術である。
シェープリー値(Shapley value, SV)は、協調ゲーム理論から派生した、証明可能なフェアコントリビューション評価指標である。
本稿では,SVに基づく垂直結合シェープ値(VerFedSV)と呼ばれるコントリビューション評価指標を提案する。
論文 参考訳(メタデータ) (2022-01-07T19:57:15Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Approximate Cross-validated Mean Estimates for Bayesian Hierarchical Regression Models [6.824747267214373]
本稿では,ベイズ階層回帰モデルに対するクロスバリデーション予測手法を提案する。
理論的な結果を提供し、その効果を公開データやシミュレーションで実証する。
論文 参考訳(メタデータ) (2020-11-29T00:00:20Z) - A Principled Approach to Data Valuation for Federated Learning [73.19984041333599]
フェデレートラーニング(FL)は、分散データソース上で機械学習(ML)モデルをトレーニングする一般的なテクニックである。
Shapley value (SV) はデータ値の概念として多くのデシラタを満たすユニークなペイオフスキームを定義する。
本稿では,FL に対応する SV の変種を提案する。
論文 参考訳(メタデータ) (2020-09-14T04:37:54Z) - Estimating the Prediction Performance of Spatial Models via Spatial
k-Fold Cross Validation [1.7205106391379026]
機械学習では、モデルの性能を評価するときにデータが独立していると仮定することが多い。
空間自己相関(spatial autocorrelation, SAC)は、標準クロスバリデーション(CV)法により、楽観的に偏りのある予測性能推定を生成する。
本研究では,SACによる楽観的バイアスを伴わないモデル予測性能を評価するため,空間k-fold Cross Validation (SKCV) と呼ばれるCV法の改良版を提案する。
論文 参考訳(メタデータ) (2020-05-28T19:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。