論文の概要: Enhancing Robustness of Gradient-Boosted Decision Trees through One-Hot
Encoding and Regularization
- arxiv url: http://arxiv.org/abs/2304.13761v2
- Date: Fri, 5 May 2023 04:03:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 16:44:06.904190
- Title: Enhancing Robustness of Gradient-Boosted Decision Trees through One-Hot
Encoding and Regularization
- Title(参考訳): 勾配ブースト決定木の1ホットエンコーディングと正規化によるロバスト性向上
- Authors: Shijie Cui, Agus Sudjianto, Aijun Zhang, Runze Li
- Abstract要約: GBDTモデルを1つのダミー変数に1つの木葉を符号化することで,1ホット符号化を用いて線形フレームワークに変換する。
これにより線形回帰法が利用可能となり、GBDTモデルのロバスト性を評価する新たなリスク分解が可能となった。
数値実験により,提案手法は1ホット符号化GBDTモデルのロバスト性を高めることができることを示した。
- 参考スコア(独自算出の注目度): 10.942447664917061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient-boosted decision trees (GBDT) are widely used and highly effective
machine learning approach for tabular data modeling. However, their complex
structure may lead to low robustness against small covariate perturbation in
unseen data. In this study, we apply one-hot encoding to convert a GBDT model
into a linear framework, through encoding of each tree leaf to one dummy
variable. This allows for the use of linear regression techniques, plus a novel
risk decomposition for assessing the robustness of a GBDT model against
covariate perturbations. We propose to enhance the robustness of GBDT models by
refitting their linear regression forms with $L_1$ or $L_2$ regularization.
Theoretical results are obtained about the effect of regularization on the
model performance and robustness. It is demonstrated through numerical
experiments that the proposed regularization approach can enhance the
robustness of the one-hot-encoded GBDT models.
- Abstract(参考訳): グラフデータモデリングにおいて、GBDT(Gradient-boosted decision tree)が広く使われ、非常に効果的な機械学習アプローチである。
しかし、その複雑な構造は、目に見えないデータにおいて小さな共変量摂動に対して低い堅牢性をもたらす可能性がある。
本研究では,各木の葉を1つのダミー変数にエンコーディングすることにより,gbdtモデルを線形フレームワークに変換するために,ワンホットエンコーディングを適用する。
これにより線形回帰法が利用可能となり、GBDTモデルの共変量摂動に対する堅牢性を評価する新たなリスク分解が可能となった。
線形回帰形式を$L_1$または$L_2$正規化することでGBDTモデルの堅牢性を高めることを提案する。
モデル性能とロバスト性に対する正則化の効果に関する理論的結果を得た。
数値実験により,提案手法は1ホット符号化GBDTモデルのロバスト性を高めることができることを示した。
関連論文リスト
- Induced Covariance for Causal Discovery in Linear Sparse Structures [55.2480439325792]
因果モデルでは、観測データから変数間の因果関係を解き明かそうとしている。
本稿では,変数が線形に疎結合な関係を示す設定のための新しい因果探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-02T04:01:38Z) - LORTSAR: Low-Rank Transformer for Skeleton-based Action Recognition [4.375744277719009]
LORTSARは2つの主要なトランスフォーマーベースモデル、"Hyperformer"と"STEP-CATFormer"に適用される。
本手法は, 認識精度の劣化や性能向上などにより, モデルパラメータの数を大幅に削減することができる。
これは、SVDと圧縮後の微調整を組み合わせることでモデル効率が向上し、人間の行動認識におけるより持続的で軽量で高性能な技術への道が開けることを確認する。
論文 参考訳(メタデータ) (2024-07-19T20:19:41Z) - TRAWL: Tensor Reduced and Approximated Weights for Large Language Models [11.064868044313855]
TRAWL (Tensor Reduced and Approximated Weights for Large Language Models) は、複数の重み行列に対してテンソル分解を適用し、大域的な構造パターンを捉えることでLLMを効果的に分解する手法である。
我々の実験によると、TRAWLは、追加のデータやトレーニング、微調整を必要とせず、ベンチマークデータセットのベースラインモデルよりも最大16%モデル性能を向上させる。
論文 参考訳(メタデータ) (2024-06-25T04:01:32Z) - Solving Inverse Problems with Model Mismatch using Untrained Neural Networks within Model-based Architectures [14.551812310439004]
モデルベースアーキテクチャでは,各インスタンスの計測領域におけるデータの一貫性を一致させるために,トレーニングされていないフォワードモデル残差ブロックを導入する。
提案手法は,パラメータ感受性が低く,追加データを必要としない統一解を提供し,前方モデルの同時適用と1パスの再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-07T19:02:13Z) - Understanding the robustness difference between stochastic gradient
descent and adaptive gradient methods [11.895321856533934]
勾配降下法(SGD)と適応勾配法はディープニューラルネットワークの訓練に広く用いられている。
これらの手法を用いて訓練したモデルの標準一般化性能の差は小さいが、SGDを用いて訓練したモデルは入力摂動下でははるかに頑健であることを示す。
論文 参考訳(メタデータ) (2023-08-13T07:03:22Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Estimation of Bivariate Structural Causal Models by Variational Gaussian
Process Regression Under Likelihoods Parametrised by Normalising Flows [74.85071867225533]
因果機構は構造因果モデルによって記述できる。
最先端の人工知能の大きな欠点の1つは、説明責任の欠如である。
論文 参考訳(メタデータ) (2021-09-06T14:52:58Z) - Cogradient Descent for Dependable Learning [64.02052988844301]
双線形最適化問題に対処するために,CoGDアルゴリズムに基づく信頼度の高い学習法を提案する。
CoGDは、ある変数がスパーシティ制約を持つ場合の双線形問題を解くために導入された。
また、特徴と重みの関連を分解するためにも使用できるため、畳み込みニューラルネットワーク(CNN)をより良く訓練するための我々の手法をさらに一般化することができる。
論文 参考訳(メタデータ) (2021-06-20T04:28:20Z) - Surrogate-based variational data assimilation for tidal modelling [0.0]
データ同化(DA)は、物理知識と観測を結合するために広く用いられている。
気候変動の文脈では、古いキャリブレーションは必ずしも新しいシナリオに使用できない。
これにより、DA計算コストの問題が提起される。
複素モデルを代用する2つの方法が提案されている。
論文 参考訳(メタデータ) (2021-06-08T07:39:38Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - CASTLE: Regularization via Auxiliary Causal Graph Discovery [89.74800176981842]
因果構造学習(CASTLE)の正規化を導入し,変数間の因果関係を共同学習することでニューラルネットワークの正規化を提案する。
CASTLEは因果的隣り合いを持つ因果的DAGの特徴のみを効率的に再構成する一方、再構成ベース正規化器は全ての入力特徴を過度に再構成する。
論文 参考訳(メタデータ) (2020-09-28T09:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。