論文の概要: A cautionary tale on fitting decision trees to data from additive
models: generalization lower bounds
- arxiv url: http://arxiv.org/abs/2110.09626v1
- Date: Mon, 18 Oct 2021 21:22:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 13:56:30.945901
- Title: A cautionary tale on fitting decision trees to data from additive
models: generalization lower bounds
- Title(参考訳): 加法モデルデータへの決定木適用に関する注意物語--一般化下界について
- Authors: Yan Shuo Tan, Abhineet Agarwal, Bin Yu
- Abstract要約: 本研究では,異なる回帰モデルに対する決定木の一般化性能について検討する。
これにより、アルゴリズムが新しいデータに一般化するために(あるいは作らない)仮定する帰納的バイアスが引き起こされる。
スパース加法モデルに適合する大規模な決定木アルゴリズムに対して、シャープな2乗誤差一般化を低い境界で証明する。
- 参考スコア(独自算出の注目度): 9.546094657606178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision trees are important both as interpretable models amenable to
high-stakes decision-making, and as building blocks of ensemble methods such as
random forests and gradient boosting. Their statistical properties, however,
are not well understood. The most cited prior works have focused on deriving
pointwise consistency guarantees for CART in a classical nonparametric
regression setting. We take a different approach, and advocate studying the
generalization performance of decision trees with respect to different
generative regression models. This allows us to elicit their inductive bias,
that is, the assumptions the algorithms make (or do not make) to generalize to
new data, thereby guiding practitioners on when and how to apply these methods.
In this paper, we focus on sparse additive generative models, which have both
low statistical complexity and some nonparametric flexibility. We prove a sharp
squared error generalization lower bound for a large class of decision tree
algorithms fitted to sparse additive models with $C^1$ component functions.
This bound is surprisingly much worse than the minimax rate for estimating such
sparse additive models. The inefficiency is due not to greediness, but to the
loss in power for detecting global structure when we average responses solely
over each leaf, an observation that suggests opportunities to improve
tree-based algorithms, for example, by hierarchical shrinkage. To prove these
bounds, we develop new technical machinery, establishing a novel connection
between decision tree estimation and rate-distortion theory, a sub-field of
information theory.
- Abstract(参考訳): 決定木は高い意思決定が可能な解釈可能なモデルとして重要であり、ランダム森林や勾配上昇などのアンサンブル手法の構築ブロックとして重要である。
しかし、その統計的な性質はよく分かっていない。
最も引用された先行研究は、古典的な非パラメトリック回帰設定におけるCARTの点方向の整合性保証の導出に焦点を当てている。
我々は異なるアプローチを採り、異なる生成回帰モデルに関して決定木の一般化性能を研究することを提唱する。
これにより、アルゴリズムが新しいデータに一般化する(あるいはしない)という仮定を導出することで、実践者がいつ、どのようにこれらの手法を適用するかを導くことができます。
本稿では,低統計的複雑度と非パラメトリックな柔軟性を有するスパース加法生成モデルに焦点をあてる。
我々は,$c^1$成分関数を持つスパース加法モデルに適合する大クラス決定木アルゴリズムに対して,シャープな二乗誤差一般化を下限として証明する。
この境界は、そのような疎加法モデルを推定するミニマックス速度よりも驚くほど悪い。
この非効率性は、例えば階層的な縮小によって木に基づくアルゴリズムを改善する機会を示唆する観察である、各葉に対してのみ反応を平均化するときに、グローバルな構造を検出する能力の喪失によるものである。
これらの限界を証明するため,情報理論のサブ分野である決定木推定とレート歪曲理論の新たな関係を確立するため,新しい技術機械を開発した。
関連論文リスト
- Decision Trees for Interpretable Clusters in Mixture Models and Deep Representations [5.65604054654671]
混合モデルに対する説明可能性-雑音比の概念を導入する。
本研究では,混合モデルを入力として,データに依存しない時間に適切な木を構築するアルゴリズムを提案する。
結果の決定ツリーの誤り率について,上と下の境界を証明した。
論文 参考訳(メタデータ) (2024-11-03T14:00:20Z) - A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - A Robust Hypothesis Test for Tree Ensemble Pruning [2.4923006485141284]
そこで我々は,勾配増進木アンサンブルの分割品質に関する理論的に正当化された新しい仮説を考案し,提示する。
本手法は, 一般的なペナルティ条件ではなく, サンプル損失の低減につながることを示す。
また,この手法にいくつかの革新的な拡張を加えて,様々な新しい木刈りアルゴリズムの扉を開く。
論文 参考訳(メタデータ) (2023-01-24T16:31:49Z) - SETAR-Tree: A Novel and Accurate Tree Algorithm for Global Time Series
Forecasting [7.206754802573034]
本稿では,TARモデルと回帰木との密接な関係について検討する。
本研究では,葉のグローバルプール回帰(PR)モデルをトレーニングする,予測固有木アルゴリズムを提案する。
本評価では, 提案した樹木モデルと森林モデルを用いて, 最先端の樹木モデルよりも精度の高い木モデルを提案する。
論文 参考訳(メタデータ) (2022-11-16T04:30:42Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - GP-BART: a novel Bayesian additive regression trees approach using
Gaussian processes [1.03590082373586]
GP-BARTモデル(GP-BART model)は、すべての木間の各終端ノードの予測にGP先行を仮定することで制限に対処するBARTの拡張である。
モデルの有効性は、シミュレーションおよび実世界のデータへの応用を通じて実証され、様々なシナリオにおける従来のモデリング手法のパフォーマンスを上回る。
論文 参考訳(メタデータ) (2022-04-05T11:18:44Z) - Data-driven advice for interpreting local and global model predictions
in bioinformatics problems [17.685881417954782]
条件付き特徴コントリビューション(CFC)は、予測のテキストローカルでケースバイケースの説明を提供する。
両手法で計算した説明を, 公開されている164の分類問題に対して比較した。
ランダム林では,地域とグローバルのSHAP値とCFCスコアの相関関係が極めて高い。
論文 参考訳(メタデータ) (2021-08-13T12:41:39Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - ENTMOOT: A Framework for Optimization over Ensemble Tree Models [57.98561336670884]
ENTMOOTは、ツリーモデルをより大きな最適化問題に統合するためのフレームワークである。
ENTMOOTは、ツリーモデルの意思決定とブラックボックス最適化への単純な統合を可能にしていることを示す。
論文 参考訳(メタデータ) (2020-03-10T14:34:07Z) - Polynomial-Time Exact MAP Inference on Discrete Models with Global
Dependencies [83.05591911173332]
ジャンクションツリーアルゴリズムは、実行時の保証と正確なMAP推論のための最も一般的な解である。
本稿では,ノードのクローン化による新たなグラフ変換手法を提案する。
論文 参考訳(メタデータ) (2019-12-27T13:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。