論文の概要: Individualized and Global Feature Attributions for Gradient Boosted
Trees in the Presence of $\ell_2$ Regularization
- arxiv url: http://arxiv.org/abs/2211.04409v1
- Date: Tue, 8 Nov 2022 17:56:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 15:37:08.884132
- Title: Individualized and Global Feature Attributions for Gradient Boosted
Trees in the Presence of $\ell_2$ Regularization
- Title(参考訳): $\ell_2$正則化存在下での直交昇降木に対する個別的および大域的特徴属性
- Authors: Qingyao Sun (University of Chicago)
- Abstract要約: 本稿では,プレデコン(PreDecomp)を提案する。プレデコン(PreDecomp,PreDecomp,PreDecomp)は,正規化を$ell$で訓練した場合に,増木に対する新規な個別化特徴属性である。
また、各ツリーのアウトサンプルデータに個々の特徴属性とラベルの内積で定義される、偏りのないグローバルな特徴属性のファミリーであるTreeInnerを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While $\ell_2$ regularization is widely used in training gradient boosted
trees, popular individualized feature attribution methods for trees such as
Saabas and TreeSHAP overlook the training procedure. We propose Prediction
Decomposition Attribution (PreDecomp), a novel individualized feature
attribution for gradient boosted trees when they are trained with $\ell_2$
regularization. Theoretical analysis shows that the inner product between
PreDecomp and labels on in-sample data is essentially the total gain of a tree,
and that it can faithfully recover additive models in the population case when
features are independent. Inspired by the connection between PreDecomp and
total gain, we also propose TreeInner, a family of debiased global feature
attributions defined in terms of the inner product between any individualized
feature attribution and labels on out-sample data for each tree. Numerical
experiments on a simulated dataset and a genomic ChIP dataset show that
TreeInner has state-of-the-art feature selection performance. Code reproducing
experiments is available at https://github.com/nalzok/TreeInner .
- Abstract(参考訳): $\ell_2$ regularization は、トレーニング勾配向上木に広く使われているが、Saabas や TreeSHAP といった木々の個別化特徴属性メソッドは、トレーニング手順を見渡せる。
我々は,$\ell_2$正規化で訓練された場合の,勾配強化木に対する新しい個別化特徴帰属である予測分解帰属 (predecomp) を提案する。
理論的解析により、PreDecompとインサンプルデータ上のラベルの間の内部積は基本的に木の総収量であり、特徴が独立な場合の集団ケースにおける付加的モデルを忠実に復元できることが示されている。
また,プリデコンプリートと総利得の関係に着想を得たtreeinnerは,各ツリーの個別化特徴属性とラベル間の内積と各ツリーのアウトサンプルデータとで定義された不偏大域的特徴属性の族である。
シミュレーションデータセットとゲノムChIPデータセットの数値実験により、TreeInnerには最先端の機能選択性能があることが示された。
コード再現実験はhttps://github.com/nalzok/treeinnerで利用可能である。
関連論文リスト
- Forecasting with Hyper-Trees [50.72190208487953]
Hyper-Treesは時系列モデルのパラメータを学習するために設計されている。
対象とする時系列モデルのパラメータを特徴に関連付けることで、Hyper-Treesはパラメータ非定常性の問題にも対処する。
この新しいアプローチでは、木はまず入力特徴から情報表現を生成し、浅いネットワークはターゲットモデルパラメータにマップする。
論文 参考訳(メタデータ) (2024-05-13T15:22:15Z) - Learning a Decision Tree Algorithm with Transformers [75.96920867382859]
メタ学習によってトレーニングされたトランスフォーマーベースのモデルであるMetaTreeを導入し、強力な決定木を直接生成する。
我々は、多くのデータセットに欲求決定木とグローバルに最適化された決定木の両方を適合させ、MetaTreeを訓練して、強力な一般化性能を実現する木のみを生成する。
論文 参考訳(メタデータ) (2024-02-06T07:40:53Z) - Tree Variational Autoencoders [5.992683455757179]
本稿では,潜在変数上の柔軟木に基づく後続分布を学習する階層的階層クラスタリングモデルを提案する。
TreeVAEは、本質的な特徴に従ってサンプルを階層的に分割し、データ内の隠れた構造に光を遮る。
論文 参考訳(メタデータ) (2023-06-15T09:25:04Z) - SoftTreeMax: Exponential Variance Reduction in Policy Gradient via Tree
Search [68.66904039405871]
我々は,計画を考慮したソフトマックスの一般化であるSoftTreeMaxを紹介する。
この分散を緩和する上で,木の拡大政策が果たす役割を初めて示す。
我々の分化可能なツリーベースのポリシーは、従来の単一サンプルベースの勾配ではなく、各環境における木の葉のすべての勾配を利用する。
論文 参考訳(メタデータ) (2023-01-30T19:03:14Z) - SETAR-Tree: A Novel and Accurate Tree Algorithm for Global Time Series
Forecasting [7.206754802573034]
本稿では,TARモデルと回帰木との密接な関係について検討する。
本研究では,葉のグローバルプール回帰(PR)モデルをトレーニングする,予測固有木アルゴリズムを提案する。
本評価では, 提案した樹木モデルと森林モデルを用いて, 最先端の樹木モデルよりも精度の高い木モデルを提案する。
論文 参考訳(メタデータ) (2022-11-16T04:30:42Z) - Hierarchical Shrinkage: improving the accuracy and interpretability of
tree-based methods [10.289846887751079]
木構造を改変しないポストホックアルゴリズムである階層収縮(Hierarchical Shrinkage, HS)を導入する。
HSは、他の正規化技術と併用しても、決定木の予測性能を大幅に向上させる。
すべてのコードとモデルはGithubにある本格的なパッケージでリリースされている。
論文 参考訳(メタデータ) (2022-02-02T02:43:23Z) - Spectral Top-Down Recovery of Latent Tree Models [13.681975313065477]
スペクトルトップダウン・リカバリ (STDR) は、大きな潜在木モデルを推定するための分割・コンカレントアプローチである。
STDRの分割ステップは非ランダムです。
代わりに、観測されたノードに関連する適切なラプラシア行列のFiedlerベクトルに基づいている。
私達はSTDRが統計的に一貫性があることを証明し、高い確率で木を正確に回復するために必要なサンプルの数を縛ります。
論文 参考訳(メタデータ) (2021-02-26T02:47:42Z) - Visualizing hierarchies in scRNA-seq data using a density tree-biased
autoencoder [50.591267188664666]
本研究では,高次元scRNA-seqデータから意味のある木構造を同定する手法を提案する。
次に、低次元空間におけるデータのツリー構造を強調する木バイアスオートエンコーダDTAEを紹介する。
論文 参考訳(メタデータ) (2021-02-11T08:48:48Z) - SGA: A Robust Algorithm for Partial Recovery of Tree-Structured
Graphical Models with Noisy Samples [75.32013242448151]
ノードからの観測が独立しているが非識別的に分散ノイズによって破損した場合、Ising Treeモデルの学習を検討する。
Katiyarら。
(2020) は, 正確な木構造は復元できないが, 部分木構造を復元できることを示した。
統計的に堅牢な部分木回復アルゴリズムであるSymmetrized Geometric Averaging(SGA)を提案する。
論文 参考訳(メタデータ) (2021-01-22T01:57:35Z) - Recursive Top-Down Production for Sentence Generation with Latent Trees [77.56794870399288]
自然および合成言語に対する文脈自由文法の生成特性をモデル化する。
潜伏二分木構造にN$の葉を持つ動的プログラミングアルゴリズムを提案する。
また,Multi30kデータセットを用いたドイツ語と英語の翻訳実験を行った。
論文 参考訳(メタデータ) (2020-10-09T17:47:16Z) - FREEtree: A Tree-based Approach for High Dimensional Longitudinal Data
With Correlated Features [2.00191482700544]
FREEtreeは高次元長手データと相関する特徴を持つ木に基づく手法である。
重み付き相関ネットワーク分析を用いて、まずそれらをクラスタリングすることで、特徴のネットワーク構造を利用する。
次に、各機能のクラスタ内でスクリーニングステップを実行し、残る機能の中から選択ステップを実行します。
論文 参考訳(メタデータ) (2020-06-17T07:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。