論文の概要: A Numerical Transform of Random Forest Regressors corrects
Systematically-Biased Predictions
- arxiv url: http://arxiv.org/abs/2003.07445v1
- Date: Mon, 16 Mar 2020 21:18:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 03:07:28.637340
- Title: A Numerical Transform of Random Forest Regressors corrects
Systematically-Biased Predictions
- Title(参考訳): ランダムフォレスト回帰器の数値変換による体系的バイアス予測
- Authors: Shipra Malhotra and John Karanicolas
- Abstract要約: ランダムな森林モデルからの予測には体系的なバイアスがある。
このバイアスは単純な合成データセットで再カプセル化される。
トレーニングデータを使用して、それを完全に修正する数値変換を定義します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past decade, random forest models have become widely used as a
robust method for high-dimensional data regression tasks. In part, the
popularity of these models arises from the fact that they require little
hyperparameter tuning and are not very susceptible to overfitting. Random
forest regression models are comprised of an ensemble of decision trees that
independently predict the value of a (continuous) dependent variable;
predictions from each of the trees are ultimately averaged to yield an overall
predicted value from the forest. Using a suite of representative real-world
datasets, we find a systematic bias in predictions from random forest models.
We find that this bias is recapitulated in simple synthetic datasets,
regardless of whether or not they include irreducible error (noise) in the
data, but that models employing boosting do not exhibit this bias. Here we
demonstrate the basis for this problem, and we use the training data to define
a numerical transformation that fully corrects it. Application of this
transformation yields improved predictions in every one of the real-world and
synthetic datasets evaluated in our study.
- Abstract(参考訳): 過去10年間で、ランダム森林モデルは高次元データ回帰タスクの堅牢な方法として広く利用されている。
これらのモデルの人気は、過度なパラメータチューニングをほとんど必要とせず、過度に適合する可能性があまりないという事実から生じる。
ランダム森林回帰モデルは、(連続的な)依存変数の値を独立して予測する決定木からなる。
代表的な実世界のデータセットの集合を用いて、ランダムな森林モデルからの予測に体系的なバイアスを見出す。
このバイアスは、データに既約誤差(ノイズ)を含むかどうかに関わらず、単純な合成データセットで再認識されるが、ブースティングを利用するモデルでは、このバイアスは示されない。
ここでは、この問題の基礎を実証し、トレーニングデータを用いて、それを完全に修正する数値変換を定義する。
この変換の適用により,本研究で評価した実世界および合成データセットの予測精度が向上した。
関連論文リスト
- Generalized Regression with Conditional GANs [2.4171019220503402]
本稿では,学習データセットにおける特徴ラベルペアと,対応する入力と組み合わせて出力を区別できない予測関数を学習することを提案する。
回帰に対するこのアプローチは、私たちが適合するデータの分布に対する仮定を減らし、表現能力が向上することを示す。
論文 参考訳(メタデータ) (2024-04-21T01:27:47Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Forest Parameter Prediction by Multiobjective Deep Learning of
Regression Models Trained with Pseudo-Target Imputation [6.853936752111048]
リモートセンシングデータを用いた森林パラメータの予測において、回帰モデルは、伝統的に地上基準データの小さなサンプルに基づいて訓練されてきた。
本稿では, 擬似ターゲットとみなす既存の RS ベースの予測マップからのデータを用いて, この真の予測対象のサンプルをインプットする。
我々は、空中レーザー走査(ALS)データから構築された予測マップを用いて、正確な擬似ターゲットと、Sentinel-1のCバンド合成開口レーダ(SAR)のデータを回帰器として提供する。
論文 参考訳(メタデータ) (2023-06-19T18:10:47Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Posterior Collapse and Latent Variable Non-identifiability [54.842098835445]
柔軟性を犠牲にすることなく識別性を強制する深層生成モデルである,潜時同定可能な変分オートエンコーダのクラスを提案する。
合成および実データ全体にわたって、潜在識別可能な変分オートエンコーダは、後方崩壊を緩和し、データの有意義な表現を提供する既存の方法より優れている。
論文 参考訳(メタデータ) (2023-01-02T06:16:56Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Achieving Reliable Causal Inference with Data-Mined Variables: A Random
Forest Approach to the Measurement Error Problem [1.5749416770494704]
一般的な実証的戦略は、利用可能なデータから関心のある変数を'マイニング'する予測モデリング手法の適用を含む。
最近の研究は、機械学習モデルからの予測は必然的に不完全であるため、予測変数に基づく計量分析は測定誤差によるバイアスに悩まされる可能性が高いことを強調している。
ランダムフォレストと呼ばれるアンサンブル学習技術を用いて,これらのバイアスを軽減する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-12-19T21:48:23Z) - Deep transformation models: Tackling complex regression problems with
neural network based transformation models [0.0]
確率回帰のための深層変換モデルを提案する。
これは、結果の不確実性を捉える最も徹底的な方法である条件付き確率分布全体を推定する。
本手法は複雑な入力データに対して有効であり,画像データにCNNアーキテクチャを適用して実演する。
論文 参考訳(メタデータ) (2020-04-01T14:23:12Z) - Censored Quantile Regression Forest [81.9098291337097]
我々は、検閲に適応し、データが検閲を示さないときに量子スコアをもたらす新しい推定方程式を開発する。
提案手法は, パラメトリックなモデリング仮定を使わずに, 時間単位の定量を推定することができる。
論文 参考訳(メタデータ) (2020-01-08T23:20:23Z) - Fr\'echet random forests for metric space valued regression with non
euclidean predictors [0.0]
我々はFr'echet木とFr'echetランダムフォレストを導入し、入力変数と出力変数が一般的な距離空間で値を取るデータを処理する。
データ駆動分割を用いたFr'echet回帰図予測器の一貫性定理をFr'echetの純粋にランダムな木に適用する。
論文 参考訳(メタデータ) (2019-06-04T22:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。