論文の概要: Adaptive MSD-Splitting: Enhancing C4.5 and Random Forests for Skewed Continuous Attributes
- arxiv url: http://arxiv.org/abs/2604.19722v1
- Date: Tue, 21 Apr 2026 17:48:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.909733
- Title: Adaptive MSD-Splitting: Enhancing C4.5 and Random Forests for Skewed Continuous Attributes
- Title(参考訳): 適応MSDスプリッティング:C4.5とランダムフォレストによる連続属性の強化
- Authors: Jake Lee,
- Abstract要約: 実験平均と標準偏差を用いた連続データのビン化に適応MSD分割(Adaptive MSD-Splitting:AMSD)を導入する。
AMSDは特徴歪度に基づいて標準偏差乗算器を動的に調整することでこの問題に対処する。
Census Income, Heart Disease, Breast Cancer, Forest Covertypeのデータセットに関する実証的な評価は、AMSDが2-4%の精度改善をもたらすことを示している。
- 参考スコア(独自算出の注目度): 0.3384279376065155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The discretization of continuous numerical attributes remains a persistent computational bottleneck in the induction of decision trees, particularly as dataset dimensions scale. Building upon the recently proposed MSD-Splitting technique -- which bins continuous data using the empirical mean and standard deviation to dramatically improve the efficiency and accuracy of the C4.5 algorithm -- we introduce Adaptive MSD-Splitting (AMSD). While standard MSD-Splitting is highly effective for approximately symmetric distributions, its rigid adherence to fixed one-standard-deviation cutoffs can lead to catastrophic information loss in highly skewed data, a common artifact in real-world biomedical and financial datasets. AMSD addresses this by dynamically adjusting the standard deviation multiplier based on feature skewness, narrowing intervals in dense regions to preserve discriminative resolution. Furthermore, we integrate AMSD into ensemble methods, specifically presenting the Random Forest-AMSD (RF-AMSD) framework. Empirical evaluations on the Census Income, Heart Disease, Breast Cancer, and Forest Covertype datasets demonstrate that AMSD yields a 2-4% accuracy improvement over standard MSD-Splitting, while maintaining near-identical O(N) time complexity reductions compared to the O(N log N) exhaustive search. Our Random Forest extension achieves state-of-the-art accuracy at a fraction of standard computational costs, confirming the viability of adaptive statistical binning in large-scale ensemble learning architectures.
- Abstract(参考訳): 連続的な数値属性の離散化は、決定木、特にデータセット次元のスケールの誘導において、永続的な計算的ボトルネックのままである。
実験的な平均値と標準偏差を使って連続データを結合してC4.5アルゴリズムの効率と精度を劇的に向上させる、最近提案されたMSD-Splitting技術に基づいて、適応MSD-Splitting (AMSD)を導入する。
標準MSDスプリッティングは、ほぼ対称な分布に対して非常に有効であるが、固定された1標準の切断に対する厳密な付着は、現実世界のバイオメディカルおよびファイナンシャルデータセットにおいて共通の成果である、高度に歪んだデータにおいて破滅的な情報損失を引き起こす可能性がある。
AMSDは、特徴歪度に基づいて標準偏差乗算器を動的に調整し、高密度領域の間隔を狭め、識別分解能を維持することでこの問題に対処する。
さらに,AMSDをアンサンブル法に統合し,特にRandom Forest-AMSD (RF-AMSD) フレームワークについて述べる。
Census Income, Heart Disease, Breast Cancer, Forest Covertype データセットの実証評価により, AMSD は標準的な MSD-Splitting よりも2-4% 精度が向上し,O(N log N) サーチと比較してほぼ同一の O(N) 時間複雑性の低減を維持した。
我々のランダムフォレスト拡張は、大規模アンサンブル学習アーキテクチャにおける適応的統計双対の実現可能性を確認し、標準的な計算コストのごく一部で最先端の精度を達成する。
関連論文リスト
- Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - A Comprehensive Framework for Uncertainty Quantification of Voxel-wise Supervised Models in IVIM MRI [33.7054351451505]
混合密度ネットワーク(MDN)のディープアンサンブルに基づく確率論的ディープラーニングフレームワークを提案する。
MDNは拡散係数Dと分数fのパラメータに対してより校正され、よりシャープな予測分布が得られたが、擬拡散係数D*ではわずかに過信が観察された。
本稿では,信頼できない推定値の同定と解釈を可能にする,不確実な定量化を伴うIVIMの包括的枠組みを提案する。
論文 参考訳(メタデータ) (2025-08-06T16:08:55Z) - Clustering-Based Low-Rank Matrix Approximation for Medical Image Compression [0.34376560669160394]
適応的なLoRMAは、医療画像を重なり合うパッチに分割し、構造的に類似したパッチをk-meansを使ってクラスタにグループ化し、各クラスタ内でSVDを実行する。
我々は,MRI,超音波,CT,胸部X線という4つの画像モダリティのグローバルSVDに対する適応型LoRMAの評価と比較を行った。
その結果, 適応型 LoRMA はPSNR, SSIM, IoU, EPI, EPI で測定された構造的整合性, エッジ細部, 診断関連性を効果的に維持することが示された。
論文 参考訳(メタデータ) (2025-05-13T06:10:05Z) - A Deep Bayesian Nonparametric Framework for Robust Mutual Information Estimation [9.68824512279232]
相互情報(MI)は、変数間の依存関係をキャプチャするための重要な手段である。
正規化を組み込むためにディリクレ過程後部の有限表現でMI損失を構成することでMI推定器を訓練するソリューションを提案する。
データ空間と変分オートエンコーダの潜時空間の間のMIを最大化するための推定器の適用について検討する。
論文 参考訳(メタデータ) (2025-03-11T21:27:48Z) - Knowledge Distillation and Enhanced Subdomain Adaptation Using Graph Convolutional Network for Resource-Constrained Bearing Fault Diagnosis [0.0]
複雑な教師モデルからコンパクトで効率的な学生モデルに知識を伝達する進歩的知識蒸留フレームワークを提案する。
再生ケルネルヒルベルト空間(RKHS)における平均および分散統計を利用してラベル間の事前確率分布を組み込むELMMSD(Enhanced Local Maximum Mean Squared Discrepancy)を導入する。
論文 参考訳(メタデータ) (2025-01-13T10:05:47Z) - Stability and Generalization for Distributed SGDA [70.97400503482353]
分散SGDAのための安定性に基づく一般化分析フレームワークを提案する。
我々は, 安定性の誤差, 一般化ギャップ, 人口リスクの包括的分析を行う。
理論的結果から,一般化ギャップと最適化誤差のトレードオフが明らかになった。
論文 参考訳(メタデータ) (2024-11-14T11:16:32Z) - Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - Meta Learning Low Rank Covariance Factors for Energy-Based Deterministic
Uncertainty [58.144520501201995]
ニューラルネットワーク層のBi-Lipschitz正規化は、各レイヤの特徴空間におけるデータインスタンス間の相対距離を保存する。
注意セットエンコーダを用いて,タスク固有の共分散行列を効率的に構築するために,対角的,対角的,低ランクな要素のメタ学習を提案する。
また,最終的な予測分布を達成するために,スケールしたエネルギーを利用する推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T22:04:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。