論文の概要: When are ensembles really effective?
- arxiv url: http://arxiv.org/abs/2305.12313v1
- Date: Sun, 21 May 2023 01:36:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 21:21:27.387627
- Title: When are ensembles really effective?
- Title(参考訳): アンサンブルはいつ本当に有効か?
- Authors: Ryan Theisen, Hyunsuk Kim, Yaoqing Yang, Liam Hodgkinson, Michael W.
Mahoney
- Abstract要約: 分類タスクにおいて,アンサンブルが顕著な性能向上をもたらす時期について検討する。
平均誤差率に対して不一致率が大きくなると,アンサンブルにより性能が大幅に向上することを示す。
アンサンブルが実現し、大きなパフォーマンス改善をもたらすことのない、実践的なシナリオを特定します。
- 参考スコア(独自算出の注目度): 49.37269057899679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensembling has a long history in statistical data analysis, with many
impactful applications. However, in many modern machine learning settings, the
benefits of ensembling are less ubiquitous and less obvious. We study, both
theoretically and empirically, the fundamental question of when ensembling
yields significant performance improvements in classification tasks.
Theoretically, we prove new results relating the \emph{ensemble improvement
rate} (a measure of how much ensembling decreases the error rate versus a
single model, on a relative scale) to the \emph{disagreement-error ratio}. We
show that ensembling improves performance significantly whenever the
disagreement rate is large relative to the average error rate; and that,
conversely, one classifier is often enough whenever the disagreement rate is
low relative to the average error rate. On the way to proving these results, we
derive, under a mild condition called \emph{competence}, improved upper and
lower bounds on the average test error rate of the majority vote classifier. To
complement this theory, we study ensembling empirically in a variety of
settings, verifying the predictions made by our theory, and identifying
practical scenarios where ensembling does and does not result in large
performance improvements. Perhaps most notably, we demonstrate a distinct
difference in behavior between interpolating models (popular in current
practice) and non-interpolating models (such as tree-based methods, where
ensembling is popular), demonstrating that ensembling helps considerably more
in the latter case than in the former.
- Abstract(参考訳): ensemblingは統計データ分析の長い歴史を持ち、多くの応用例がある。
しかし、現代の多くの機械学習環境では、センシングの利点はユビキタスではなく、明確ではない。
理論的にも経験的にも,アンサンブルが分類タスクにおいて顕著な性能向上をもたらす場合の基本的問題について考察する。
理論的には、emph{disagreement-error ratio} に対して、emph{ensemble improvement rate} (1つのモデルに対して、どれだけの ensembling がエラー率を減少させるかを示す尺度) に関する新たな結果が得られた。
平均誤差率に対して不一致率が大きくなると,アンサンブルは性能を著しく向上させ,逆に平均誤差率に対して不一致率が低い場合には,一つの分類器で十分であることを示す。
これらの結果の証明には, 「emph{competence}」と呼ばれる軽度条件の下で, 多数決分類器の平均テスト誤差率の上限値と下限値を改善した。
この理論を補完するため,様々な環境でのアンサンブルを実証的に研究し,我々の理論による予測を検証し,アンサンブルが実現し,性能が向上しない実践シナリオを特定する。
おそらく最も顕著な例は、補間モデル(現在の実践では一般的)と非補間モデル(例えば、アンサンブルが人気である木に基づく手法など)の挙動の明確な違いを示し、アンサンブルが後者の場合よりもはるかに有効であることを示すことである。
関連論文リスト
- How many classifiers do we need? [50.69951049206484]
分類器間の不一致と偏極が、個々の分類器を集約することで得られる性能向上とどのように関連しているかを詳細に分析する。
分類器の個数で不一致の挙動を示す。
我々の理論と主張は、様々なタイプのニューラルネットワークを用いた画像分類タスクに関する経験的な結果によって裏付けられている。
論文 参考訳(メタデータ) (2024-11-01T02:59:56Z) - Subsampled Ensemble Can Improve Generalization Tail Exponentially [27.941595142117443]
アンサンブル学習は、機械学習モデルの精度を改善するための一般的なテクニックである。
多数決投票を通じてサブサンプルで訓練された最良のモデルを選択することで、アンサンブルに関する新たな視点を提供する。
重み付きデータや本質的なスローレートを含む様々な事例において,我々のアンサンブル手法がサンプル外性能を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2024-05-23T16:05:10Z) - Robust Distributed Learning: Tight Error Bounds and Breakdown Point
under Data Heterogeneity [11.2120847961379]
本稿では,より現実的な不均一性モデル,すなわち(G,B)-段階的な相似性について考察し,既存の理論よりも学習問題を扱えることを示す。
また、分散学習アルゴリズムの学習誤差に新たな低い境界があることも証明する。
論文 参考訳(メタデータ) (2023-09-24T09:29:28Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Throwing Away Data Improves Worst-Class Error in Imbalanced
Classification [36.91428748713018]
クラス不均衡は分類問題に悪影響を及ぼすが、その治療は理論と実践において異なる。
本稿では,線形分離可能なデータに対する分類器の誤りを記述できる学習理論の開発に挑戦する。
論文 参考訳(メタデータ) (2022-05-23T23:43:18Z) - Solving Inefficiency of Self-supervised Representation Learning [87.30876679780532]
既存のコントラスト学習法は、非常に低い学習効率に苦しむ。
アンダークラスタリングとオーバークラスタリングの問題は、学習効率の大きな障害である。
中央三重項損失を用いた新しい自己監督学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-18T07:47:10Z) - On Counterfactual Explanations under Predictive Multiplicity [14.37676876556672]
対実的な説明は通常、入力に対する最小の変更を識別して、固定されたモデルによる予測を変更することによって得られる。
最近の研究は古い洞察を復活させ、一般的に使用される関心の尺度に関して予測問題に対する優れた解決策が1つ存在しないことがしばしばある。
論文 参考訳(メタデータ) (2020-06-23T16:25:47Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。