論文の概要: Getting Better from Worse: Augmented Bagging and a Cautionary Tale of
Variable Importance
- arxiv url: http://arxiv.org/abs/2003.03629v2
- Date: Mon, 9 Nov 2020 16:34:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 19:11:54.834860
- Title: Getting Better from Worse: Augmented Bagging and a Cautionary Tale of
Variable Importance
- Title(参考訳): 悪化から改善する: 拡張的な袋詰めと、さまざまな重要性の警告的物語
- Authors: Lucas Mentch and Siyu Zhou
- Abstract要約: ブラックボックス学習アルゴリズムは、最小限の事前モデル仕様で正確な予測を提供することができる。
AugBaggは、古典的な荷物やランダムな森と同じような方法で機能する手順である。
モデルに余分なノイズ変数を含むこの単純な行為は、サンプル外予測精度を劇的に向上させる可能性があることを実証する。
- 参考スコア(独自算出の注目度): 6.327756363397825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the size, complexity, and availability of data continues to grow,
scientists are increasingly relying upon black-box learning algorithms that can
often provide accurate predictions with minimal a priori model specifications.
Tools like random forests have an established track record of off-the-shelf
success and even offer various strategies for analyzing the underlying
relationships among variables. Here, motivated by recent insights into random
forest behavior, we introduce the simple idea of augmented bagging (AugBagg), a
procedure that operates in an identical fashion to classical bagging and random
forests, but which operates on a larger, augmented space containing additional
randomly generated noise features. Surprisingly, we demonstrate that this
simple act of including extra noise variables in the model can lead to dramatic
improvements in out-of-sample predictive accuracy, sometimes outperforming even
an optimally tuned traditional random forest. As a result, intuitive notions of
variable importance based on improved model accuracy may be deeply flawed, as
even purely random noise can routinely register as statistically significant.
Numerous demonstrations on both real and synthetic data are provided along with
a proposed solution.
- Abstract(参考訳): データの規模、複雑さ、可用性が拡大するにつれて、科学者たちは、最小限のプリオリモデル仕様で正確な予測を提供するブラックボックス学習アルゴリズムに依存している。
ランダムな森林のようなツールには、既成の成功の実績があり、変数間の基礎となる関係を分析するための様々な戦略も提供している。
ここでは、近年の無作為な森林行動の洞察に動機付けられ、古典的なバグやランダムな森林と同じような方法で機能する拡張バッジ(AugBagg)という単純なアイデアを導入し、さらにランダムに発生する雑音の特徴を含む拡張された空間で機能する手法を紹介した。
驚くべきことに、このモデルに余分なノイズ変数を含む単純な行為は、サンプル外の予測精度を劇的に改善し、時には最適に調整された伝統的なランダムフォレストを上回っている。
その結果、モデル精度の向上に基づく変数の重要性の直感的な概念は、純粋にランダムなノイズであっても統計的に重要なものとして定期的に登録できるため、深刻な欠陥がある。
実データと合成データの両方に関する多数のデモンストレーションが提案されたソリューションと共に提供されている。
関連論文リスト
- Binary Classification: Is Boosting stronger than Bagging? [5.877778007271621]
本稿では,バニラ・ランダム・フォレストの拡張である拡張ランダム・フォレストを紹介し,付加機能と適応サンプルおよびモデル重み付けについて述べる。
トレーニングサンプルの重み付けを適応するための反復アルゴリズムを開発し、最も難しい例を選好し、新しいサンプルごとに個別の木の重み付け手法を見つけるためのアプローチを開発した。
本手法は15の異なる二分分類データセットにまたがる通常のランダムフォレストを著しく改善し,XGBoostを含む他の木法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-24T23:22:33Z) - Estimating Causal Effects from Learned Causal Networks [56.14597641617531]
本稿では、離散可観測変数に対する因果影響クエリに応答する代替パラダイムを提案する。
観測データから直接因果ベイズネットワークとその共起潜伏変数を学習する。
本手法は, 推定手法よりも有効であることを示す。
論文 参考訳(メタデータ) (2024-08-26T08:39:09Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - Lazy Estimation of Variable Importance for Large Neural Networks [22.95405462638975]
そこで本研究では,重要な推論保証付き縮小モデルを高速かつフレキシブルに近似する手法を提案する。
いくつかのデータ生成体制下では,本手法が高速かつ正確であることを示し,季節風予報の例で実世界の適用性を示す。
論文 参考訳(メタデータ) (2022-07-19T06:28:17Z) - On Uncertainty Estimation by Tree-based Surrogate Models in Sequential
Model-based Optimization [13.52611859628841]
予測不確実性推定の観点から,ランダム化木の様々なアンサンブルを再検討し,その挙動について検討する。
BwO林と呼ばれる無作為な樹木のアンサンブルを構築するための新しい手法を提案する。
実験により,既存の樹木モデルに対するBwO林の有効性と性能について様々な状況で検証した。
論文 参考訳(メタデータ) (2022-02-22T04:50:37Z) - Achieving Reliable Causal Inference with Data-Mined Variables: A Random
Forest Approach to the Measurement Error Problem [1.5749416770494704]
一般的な実証的戦略は、利用可能なデータから関心のある変数を'マイニング'する予測モデリング手法の適用を含む。
最近の研究は、機械学習モデルからの予測は必然的に不完全であるため、予測変数に基づく計量分析は測定誤差によるバイアスに悩まされる可能性が高いことを強調している。
ランダムフォレストと呼ばれるアンサンブル学習技術を用いて,これらのバイアスを軽減する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-12-19T21:48:23Z) - Squared $\ell_2$ Norm as Consistency Loss for Leveraging Augmented Data
to Learn Robust and Invariant Representations [76.85274970052762]
元のサンプルと拡張されたサンプルの埋め込み/表現の距離を規則化することは、ニューラルネットワークの堅牢性を改善するための一般的なテクニックである。
本稿では、これらの様々な正規化選択について検討し、埋め込みの正規化方法の理解を深める。
私たちが特定したジェネリックアプローチ(squared $ell$ regularized augmentation)は、それぞれ1つのタスクのために特別に設計されたいくつかの手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-25T22:40:09Z) - Improved Weighted Random Forest for Classification Problems [3.42658286826597]
優れたアンサンブルモデルを作るための鍵は、ベースモデルの多様性にある。
そこで本研究では,正規林の重み付け戦略を改良するアルゴリズムを提案する。
提案したモデルでは,通常のランダム林に比べて大幅な改善が可能である。
論文 参考訳(メタデータ) (2020-09-01T16:08:45Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。