論文の概要: Handling Missing Data in Decision Trees: A Probabilistic Approach
- arxiv url: http://arxiv.org/abs/2006.16341v1
- Date: Mon, 29 Jun 2020 19:54:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 13:19:35.334619
- Title: Handling Missing Data in Decision Trees: A Probabilistic Approach
- Title(参考訳): 決定木の欠落データを扱う:確率論的アプローチ
- Authors: Pasha Khosravi, Antonio Vergari, YooJung Choi, Yitao Liang, Guy Van
den Broeck
- Abstract要約: 確率論的アプローチを採り、決定木で欠落したデータを扱う問題に対処する。
我々は, トラクタブル密度推定器を用いて, モデルの「予測予測」を計算する。
学習時には「予測予測損失」を最小限に抑えて学習済みの樹木の微調整パラメーターを微調整する。
- 参考スコア(独自算出の注目度): 41.259097100704324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision trees are a popular family of models due to their attractive
properties such as interpretability and ability to handle heterogeneous data.
Concurrently, missing data is a prevalent occurrence that hinders performance
of machine learning models. As such, handling missing data in decision trees is
a well studied problem. In this paper, we tackle this problem by taking a
probabilistic approach. At deployment time, we use tractable density estimators
to compute the "expected prediction" of our models. At learning time, we
fine-tune parameters of already learned trees by minimizing their "expected
prediction loss" w.r.t.\ our density estimators. We provide brief experiments
showcasing effectiveness of our methods compared to few baselines.
- Abstract(参考訳): 決定木は、解釈可能性や異種データを扱う能力といった魅力的な性質から、一般的なモデル群である。
同時に、データ欠落は機械学習モデルのパフォーマンスを妨げる一般的な発生である。
したがって、決定木における欠落データを扱うことはよく研究されている問題である。
本稿では,確率論的アプローチを用いてこの問題に対処する。
デプロイ時には、トラクタブル密度推定器を使用して、モデルの"予測予測"を計算します。
学習時には,その「予測予測損失」を最小化することで,既に学習した木々のパラメータを微調整する。
提案手法の有効性を示す簡単な実験を少数のベースラインと比較した。
関連論文リスト
- Building Trees for Probabilistic Prediction via Scoring Rules [0.0]
非パラメトリックな予測分布を生成するために木を修正することを研究する。
木を構築するための標準的な手法は、良い予測分布にはならないかもしれない。
我々は,適切なスコアリングルールに基づいて,木の分割基準を1つに変更することを提案する。
論文 参考訳(メタデータ) (2024-02-16T20:04:13Z) - Exploring the Effectiveness of Dataset Synthesis: An application of
Apple Detection in Orchards [68.95806641664713]
本研究では,リンゴ樹の合成データセットを生成するための安定拡散2.1-baseの有用性について検討する。
我々は、現実世界のリンゴ検出データセットでリンゴを予測するために、YOLOv5mオブジェクト検出モデルを訓練する。
その結果、実世界の画像でトレーニングされたベースラインモデルと比較して、生成データでトレーニングされたモデルはわずかに性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2023-06-20T09:46:01Z) - Prediction Algorithms Achieving Bayesian Decision Theoretical Optimality
Based on Decision Trees as Data Observation Processes [1.2774526936067927]
本稿では,データの背後にあるデータ観測過程を表現するために木を用いる。
我々は、過度な適合に対して頑健な統計的に最適な予測を導出する。
これをマルコフ連鎖モンテカルロ法により解き、ステップサイズは木の後方分布に応じて適応的に調整される。
論文 参考訳(メタデータ) (2023-06-12T12:14:57Z) - Uncertainty estimation of pedestrian future trajectory using Bayesian
approximation [137.00426219455116]
動的トラフィックシナリオでは、決定論的予測に基づく計画は信頼できない。
著者らは、決定論的アプローチが捉えられない近似を用いて予測中の不確実性を定量化する。
将来の状態の不確実性に対する降雨重量と長期予測の影響について検討した。
論文 参考訳(メタデータ) (2022-05-04T04:23:38Z) - Distributionally Robust Semi-Supervised Learning Over Graphs [68.29280230284712]
グラフ構造化データに対する半教師付き学習(SSL)は、多くのネットワークサイエンスアプリケーションに現れる。
グラフ上の学習を効率的に管理するために,近年,グラフニューラルネットワーク(GNN)の変種が開発されている。
実際に成功したにも拘わらず、既存の手法のほとんどは、不確実な結節属性を持つグラフを扱うことができない。
ノイズ測定によって得られたデータに関連する分布の不確実性によっても問題が発生する。
分散ロバストな学習フレームワークを開発し,摂動に対する定量的ロバスト性を示すモデルを訓練する。
論文 参考訳(メタデータ) (2021-10-20T14:23:54Z) - A cautionary tale on fitting decision trees to data from additive
models: generalization lower bounds [9.546094657606178]
本研究では,異なる回帰モデルに対する決定木の一般化性能について検討する。
これにより、アルゴリズムが新しいデータに一般化するために(あるいは作らない)仮定する帰納的バイアスが引き起こされる。
スパース加法モデルに適合する大規模な決定木アルゴリズムに対して、シャープな2乗誤差一般化を低い境界で証明する。
論文 参考訳(メタデータ) (2021-10-18T21:22:40Z) - Certifying Robustness to Programmable Data Bias in Decision Trees [12.060443368097102]
学習者が生成したモデルは、潜在的なデータセットバイアスに対してポイントワイズで損なわれていることを証明します。
このアプローチでは,さまざまな次元にまたがるバイアスモデルを指定することが可能です。
フェアネス文献でよく用いられるデータセットに対する我々のアプローチを評価する。
論文 参考訳(メタデータ) (2021-10-08T20:15:17Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Probabilistic Gradient Boosting Machines for Large-Scale Probabilistic
Regression [51.770998056563094]
PGBM(Probabilistic Gradient Boosting Machines)は、確率的予測を生成する手法である。
既存の最先端手法と比較してPGBMの利点を実証的に示す。
論文 参考訳(メタデータ) (2021-06-03T08:32:13Z) - Achieving Reliable Causal Inference with Data-Mined Variables: A Random
Forest Approach to the Measurement Error Problem [1.5749416770494704]
一般的な実証的戦略は、利用可能なデータから関心のある変数を'マイニング'する予測モデリング手法の適用を含む。
最近の研究は、機械学習モデルからの予測は必然的に不完全であるため、予測変数に基づく計量分析は測定誤差によるバイアスに悩まされる可能性が高いことを強調している。
ランダムフォレストと呼ばれるアンサンブル学習技術を用いて,これらのバイアスを軽減する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-12-19T21:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。