論文の概要: How Ensemble Learning Balances Accuracy and Overfitting: A Bias-Variance Perspective on Tabular Data
- arxiv url: http://arxiv.org/abs/2512.05469v1
- Date: Fri, 05 Dec 2025 06:51:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.925765
- Title: How Ensemble Learning Balances Accuracy and Overfitting: A Bias-Variance Perspective on Tabular Data
- Title(参考訳): 学習の精度とオーバーフィッティングを両立させる方法: 語彙データにおけるバイアス・ヴァランスの観点から
- Authors: Zubair Ahmed Mohammad,
- Abstract要約: 本研究では,4つの分類課題におけるアンサンブルの精度と過度適合性について検討した。
その結果, アンサンブルは, 平均昇降や制御によるばらつきを低減し, 大きなギャップを伴わずに高い精度を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensemble models often achieve higher accuracy than single learners, but their ability to maintain small generalization gaps is not always well understood. This study examines how ensembles balance accuracy and overfitting across four tabular classification tasks: Breast Cancer, Heart Disease, Pima Diabetes, and Credit Card Fraud. Using repeated stratified cross validation with statistical significance testing, we compare linear models, a single decision tree, and nine ensemble methods. The results show that ensembles can reach high accuracy without large gaps by reducing variance through averaging or controlled boosting. On nearly linear and clean data, linear models already generalize well and ensembles offer little additional benefit. On datasets with meaningful nonlinear structure, tree based ensembles increase test accuracy by 5 to 7 points while keeping gaps below 3 percent. On noisy or highly imbalanced datasets, ensembles remain competitive but require regularization to avoid fitting noise or majority class patterns. We also compute simple dataset complexity indicators, such as linearity score, Fisher ratio, and noise estimate, which explain when ensembles are likely to control variance effectively. Overall, the study provides a clear view of how and when ensembles maintain high accuracy while keeping overfitting low, offering practical guidance for model selection in real world tabular applications.
- Abstract(参考訳): アンサンブルモデルは単一学習者よりも精度が高いことが多いが、小さな一般化ギャップを維持する能力は必ずしもよく理解されていない。
本研究では, 乳がん, 心臓病, ピマ糖尿病, クレジットカード詐欺の4つの分類課題において, アンサンブルの精度と過度な適合性について検討した。
線形モデルと1つの決定木,9つのアンサンブル法を比較した。
その結果, アンサンブルは, 平均昇降や制御によるばらつきを低減し, 大きなギャップを伴わずに高い精度を達成できることが示唆された。
ほぼ線形でクリーンなデータでは、線形モデルは既に一般化されており、アンサンブルは追加の利点はほとんどない。
意味のある非線形構造を持つデータセットでは、木に基づくアンサンブルは、ギャップを3%以下に保ちながら、テスト精度を5から7ポイント向上させる。
ノイズや非常に不均衡なデータセットでは、アンサンブルは競争力を維持するが、ノイズや多数派パターンの適合を避けるために正規化を必要とする。
また、線形性スコア、フィッシャー比、ノイズ推定などの単純なデータセットの複雑さ指標も計算し、アンサンブルが分散を効果的に制御する可能性を説明する。
全体として、この研究は、アンサンブルが低いオーバーフィットを維持しながら高い精度を維持する方法と時期を明確にし、現実の表紙アプリケーションにおけるモデル選択の実践的なガイダンスを提供する。
関連論文リスト
- Unique Rashomon Sets for Robust Active Learning [0.0]
Unique Rashomon Ensembled Active Learning (UNREAL)を紹介する。
UNREALは、ほぼ最適なモデルの集合である羅生門集合からモデルを選択的にアンサンブルする。
我々はUNREALが従来のアクティブラーニング手法よりも高速な理論収束率を実現することを示す。
論文 参考訳(メタデータ) (2025-03-09T20:50:34Z) - Probably Approximately Precision and Recall Learning [60.00180898830079]
機械学習における重要な課題は、一方的なフィードバックの頻度である。
本稿では,確率的近似(PAC)フレームワークを導入し,各入力をラベルの集合にマッピングする仮説を定めている。
我々は、正のデータのみから学習する新しいアルゴリズムを開発し、実現可能な場合において最適なサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Reviving Undersampling for Long-Tailed Learning [16.054442161144603]
我々は,最低性能カテゴリーの精度を高め,調和平均と幾何平均を用いてモデルの性能を評価することを目的とする。
我々は,余分なオーバーヘッドを伴わず,高調波平均と幾何平均を改良したモデルアンサンブル戦略を考案した。
提案手法の有効性を,長期学習のための広く利用されているベンチマークデータセットに検証する。
論文 参考訳(メタデータ) (2024-01-30T08:15:13Z) - Leveraging Linear Independence of Component Classifiers: Optimizing Size
and Prediction Accuracy for Online Ensembles [3.97048491084787]
本研究では,分類者の投票の線形独立性に根ざした新たな視点を導入し,アンサンブルサイズと予測精度の相互作用を分析する。
本稿では,線形独立投票の目標確率を確保するために必要となる最小アンサンブルサイズを決定する手法を提案する。
驚くべきことに、計算された理想アンサンブルサイズは、あるデータセットに対する経験的な結果から逸脱し、他の要因の影響を強調している。
論文 参考訳(メタデータ) (2023-08-27T18:38:09Z) - Deep Negative Correlation Classification [82.45045814842595]
既存のディープアンサンブル手法は、多くの異なるモデルをナビゲートし、予測を集約する。
深部負相関分類(DNCC)を提案する。
DNCCは、個々の推定器が正確かつ負の相関を持つ深い分類アンサンブルを生成する。
論文 参考訳(メタデータ) (2022-12-14T07:35:20Z) - Relieving Long-tailed Instance Segmentation via Pairwise Class Balance [85.53585498649252]
長い尾のインスタンスセグメンテーションは、クラス間のトレーニングサンプルの極端な不均衡のために難しいタスクである。
尾のついたものに対して、(大多数のサンプルを含む)ヘッドクラスの深刻なバイアスを引き起こす。
そこで本研究では,学習中の予測嗜好を蓄積するために,学習中に更新される混乱行列上に構築された新しいPairwise Class Balance(PCB)手法を提案する。
論文 参考訳(メタデータ) (2022-01-08T07:48:36Z) - Simple data balancing achieves competitive worst-group-accuracy [16.197105634385693]
我々は、最先端の手法とクラスとグループの単純なバランスを比較し、データをサブサンプリングまたは再重み付けする。
以上の結果から,これらのデータバランシングベースラインが精度の高い状態を実現することが示唆された。
グループ情報へのアクセスは、モデル選択の目的にとって最も重要であり、トレーニング中はあまり重要ではない。
論文 参考訳(メタデータ) (2021-10-27T15:15:11Z) - Provable Guarantees for Self-Supervised Deep Learning with Spectral
Contrastive Loss [72.62029620566925]
自己教師型学習の最近の研究は、対照的な学習パラダイムを頼りに、最先端の技術の進歩を遂げている。
我々の研究は、正の対の条件的独立性を仮定することなく、対照的な学習を分析する。
本稿では,人口増分グラフ上でスペクトル分解を行う損失を提案し,コントラスト学習目的として簡潔に記述することができる。
論文 参考訳(メタデータ) (2021-06-08T07:41:02Z) - Selective Classification Can Magnify Disparities Across Groups [89.14499988774985]
選択的分類は平均的精度を向上させることができるが、既存の精度格差を同時に増大させることができる。
禁忌の増大は、一部のグループでのアキュラシーを減少させることもある。
我々は,グループ間で類似のフルカバレッジ精度を実現する分散ロバストモデルを訓練し,選択分類が各グループを均一に改善することを示す。
論文 参考訳(メタデータ) (2020-10-27T08:51:30Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。