論文の概要: Enhancing Robustness of Gradient-Boosted Decision Trees through One-Hot
Encoding and Regularization
- arxiv url: http://arxiv.org/abs/2304.13761v3
- Date: Thu, 11 May 2023 15:47:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 17:32:23.486907
- Title: Enhancing Robustness of Gradient-Boosted Decision Trees through One-Hot
Encoding and Regularization
- Title(参考訳): 勾配ブースト決定木の1ホットエンコーディングと正規化によるロバスト性向上
- Authors: Shijie Cui, Agus Sudjianto, Aijun Zhang, Runze Li
- Abstract要約: GBDTモデルを1つのダミー変数に1つの木葉を符号化することで,1ホット符号化を用いて線形フレームワークに変換する。
これにより線形回帰法が利用可能となり、GBDTモデルのロバスト性を評価する新たなリスク分解が可能となった。
数値実験により,提案手法は1ホット符号化GBDTモデルのロバスト性を高めることができることを示した。
- 参考スコア(独自算出の注目度): 10.942447664917061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient-boosted decision trees (GBDT) are widely used and highly effective
machine learning approach for tabular data modeling. However, their complex
structure may lead to low robustness against small covariate perturbation in
unseen data. In this study, we apply one-hot encoding to convert a GBDT model
into a linear framework, through encoding of each tree leaf to one dummy
variable. This allows for the use of linear regression techniques, plus a novel
risk decomposition for assessing the robustness of a GBDT model against
covariate perturbations. We propose to enhance the robustness of GBDT models by
refitting their linear regression forms with $L_1$ or $L_2$ regularization.
Theoretical results are obtained about the effect of regularization on the
model performance and robustness. It is demonstrated through numerical
experiments that the proposed regularization approach can enhance the
robustness of the one-hot-encoded GBDT models.
- Abstract(参考訳): グラフデータモデリングにおいて、GBDT(Gradient-boosted decision tree)が広く使われ、非常に効果的な機械学習アプローチである。
しかし、その複雑な構造は、目に見えないデータにおいて小さな共変量摂動に対して低い堅牢性をもたらす可能性がある。
本研究では,各木の葉を1つのダミー変数にエンコーディングすることにより,gbdtモデルを線形フレームワークに変換するために,ワンホットエンコーディングを適用する。
これにより線形回帰法が利用可能となり、GBDTモデルの共変量摂動に対する堅牢性を評価する新たなリスク分解が可能となった。
線形回帰形式を$L_1$または$L_2$正規化することでGBDTモデルの堅牢性を高めることを提案する。
モデル性能とロバスト性に対する正則化の効果に関する理論的結果を得た。
数値実験により,提案手法は1ホット符号化GBDTモデルのロバスト性を高めることができることを示した。
関連論文リスト
- Solving Inverse Problems with Model Mismatch using Untrained Neural
Networks within Model-based Architectures [15.896809554085973]
モデルベースアーキテクチャでは,各インスタンスの計測領域におけるデータの一貫性を一致させるために,トレーニングされていないフォワードモデル残差ブロックを導入する。
実験では、アーティファクトの削除と3つの異なるアプリケーションにわたる詳細の保存において、大幅な品質改善が示されている。
論文 参考訳(メタデータ) (2024-03-07T19:02:13Z) - Understanding the robustness difference between stochastic gradient
descent and adaptive gradient methods [11.895321856533934]
勾配降下法(SGD)と適応勾配法はディープニューラルネットワークの訓練に広く用いられている。
これらの手法を用いて訓練したモデルの標準一般化性能の差は小さいが、SGDを用いて訓練したモデルは入力摂動下でははるかに頑健であることを示す。
論文 参考訳(メタデータ) (2023-08-13T07:03:22Z) - An adaptive shortest-solution guided decimation approach to sparse
high-dimensional linear regression [2.3759847811293766]
ASSDは最短解誘導アルゴリズムから適応され、ASSDと呼ばれる。
ASSDは、実世界の応用で遭遇する高度に相関した測定行列を持つ線形回帰問題に特に適している。
論文 参考訳(メタデータ) (2022-11-28T04:29:57Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Estimation of Bivariate Structural Causal Models by Variational Gaussian
Process Regression Under Likelihoods Parametrised by Normalising Flows [74.85071867225533]
因果機構は構造因果モデルによって記述できる。
最先端の人工知能の大きな欠点の1つは、説明責任の欠如である。
論文 参考訳(メタデータ) (2021-09-06T14:52:58Z) - Robust Regression via Model Based Methods [13.300549123177705]
モデルベース最適化 (MBO) [35, 36] に着想を得たアルゴリズムを提案し, 非対象を凸モデル関数に置き換える。
これをロバスト回帰に適用し、MBOの内部最適化を解くために、オンライン乗算器のオンライン交互方向法(OOADM) [50] の関数 SADM を提案する。
最後に、(a)アウトレーヤに対するl_pノルムのロバスト性、(b)オートエンコーダ法とマルチターゲット回帰法と比較して、提案したモデルベースアルゴリズムの効率性を実験的に実証した。
論文 参考訳(メタデータ) (2021-06-20T21:45:35Z) - Cogradient Descent for Dependable Learning [64.02052988844301]
双線形最適化問題に対処するために,CoGDアルゴリズムに基づく信頼度の高い学習法を提案する。
CoGDは、ある変数がスパーシティ制約を持つ場合の双線形問題を解くために導入された。
また、特徴と重みの関連を分解するためにも使用できるため、畳み込みニューラルネットワーク(CNN)をより良く訓練するための我々の手法をさらに一般化することができる。
論文 参考訳(メタデータ) (2021-06-20T04:28:20Z) - Surrogate-based variational data assimilation for tidal modelling [0.0]
データ同化(DA)は、物理知識と観測を結合するために広く用いられている。
気候変動の文脈では、古いキャリブレーションは必ずしも新しいシナリオに使用できない。
これにより、DA計算コストの問題が提起される。
複素モデルを代用する2つの方法が提案されている。
論文 参考訳(メタデータ) (2021-06-08T07:39:38Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - CASTLE: Regularization via Auxiliary Causal Graph Discovery [89.74800176981842]
因果構造学習(CASTLE)の正規化を導入し,変数間の因果関係を共同学習することでニューラルネットワークの正規化を提案する。
CASTLEは因果的隣り合いを持つ因果的DAGの特徴のみを効率的に再構成する一方、再構成ベース正規化器は全ての入力特徴を過度に再構成する。
論文 参考訳(メタデータ) (2020-09-28T09:49:38Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。