論文の概要: Ranking Perspective for Tree-based Methods with Applications to Symbolic Feature Selection
- arxiv url: http://arxiv.org/abs/2410.02623v1
- Date: Thu, 3 Oct 2024 16:03:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 02:02:21.117883
- Title: Ranking Perspective for Tree-based Methods with Applications to Symbolic Feature Selection
- Title(参考訳): 木に基づく手法のランク付けと記号的特徴選択への応用
- Authors: Hengrui Luo, Meng Li,
- Abstract要約: 木に基づく手法は統計学や機械学習において強力な非パラメトリック手法である。
近年の応用は、現在の理論的理解の下では明らかでない変換を区別する驚くべき能力を明らかにしている。
この研究は、ランク付けの観点から木に基づく手法の有限サンプル解析を提供する。
- 参考スコア(独自算出の注目度): 3.2964064859807496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tree-based methods are powerful nonparametric techniques in statistics and machine learning. However, their effectiveness, particularly in finite-sample settings, is not fully understood. Recent applications have revealed their surprising ability to distinguish transformations (which we call symbolic feature selection) that remain obscure under current theoretical understanding. This work provides a finite-sample analysis of tree-based methods from a ranking perspective. We link oracle partitions in tree methods to response rankings at local splits, offering new insights into their finite-sample behavior in regression and feature selection tasks. Building on this local ranking perspective, we extend our analysis in two ways: (i) We examine the global ranking performance of individual trees and ensembles, including Classification and Regression Trees (CART) and Bayesian Additive Regression Trees (BART), providing finite-sample oracle bounds, ranking consistency, and posterior contraction results. (ii) Inspired by the ranking perspective, we propose concordant divergence statistics $\mathcal{T}_0$ to evaluate symbolic feature mappings and establish their properties. Numerical experiments demonstrate the competitive performance of these statistics in symbolic feature selection tasks compared to existing methods.
- Abstract(参考訳): 木に基づく手法は統計学や機械学習において強力な非パラメトリック手法である。
しかし、それらの効果、特に有限サンプル設定では、完全には理解されていない。
近年の応用は、現在の理論的理解の下では明らかでない変換(象徴的特徴選択と呼ばれる)を区別する驚くべき能力を明らかにしている。
この研究は、ランク付けの観点から木に基づく手法の有限サンプル解析を提供する。
ツリーメソッドのオラクルパーティションを局所的なスプリットでの応答ランキングにリンクし、回帰および特徴選択タスクにおける有限サンプルの振る舞いに関する新たな洞察を提供する。
この局所的なランキングの観点から、我々は分析を2つの方法で拡張する。
i) 分類・回帰木(CART)やベイジアン付加回帰木(BART)など,個々の木やアンサンブルのグローバルなランク付け性能について検討し, 有限サンプルオラクル境界, ランキング整合性, 後部収縮結果について検討した。
(II)ランク付けの観点に触発されて,記号的特徴写像を評価し,それらの特性を確立するために,コンコーダント発散統計学$\mathcal{T}_0$を提案する。
数値実験は, 従来の手法と比較して, 象徴的特徴選択タスクにおけるこれらの統計量の競合性能を実証する。
関連論文リスト
- Extending Explainable Ensemble Trees (E2Tree) to regression contexts [1.5186937600119894]
E2Treeは、ランダムな森林を説明するための新しい方法論である。
これは、応答に対する予測変数の影響を考慮に入れている。
また、計算と異種性尺度の使用を通じて、予測変数間の関連性も説明できる。
論文 参考訳(メタデータ) (2024-09-10T11:42:55Z) - Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning [53.241569810013836]
本稿では,大規模言語モデル(LLM)を用いて,効率的な特徴生成ルールを同定するフレームワークを提案する。
我々は、自然言語で容易に表現できるため、この推論情報を伝達するために決定木を使用します。
OCTreeは様々なベンチマークで様々な予測モデルの性能を継続的に向上させる。
論文 参考訳(メタデータ) (2024-06-12T08:31:34Z) - Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。
クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。
このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文 参考訳(メタデータ) (2023-05-24T11:05:12Z) - Unboxing Tree Ensembles for interpretability: a hierarchical
visualization tool and a multivariate optimal re-built tree [0.34530027457862006]
我々は,木組モデルの解釈可能な表現を開発し,その振る舞いに関する貴重な洞察を提供する。
提案モデルは,木組決定関数を近似した浅い解釈可能な木を得るのに有効である。
論文 参考訳(メタデータ) (2023-02-15T10:43:31Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - A Mathematical Programming Approach to Optimal Classification Forests [1.0705399532413618]
本稿では,与えられた木を同時に構築する数学的最適化手法を提案する。
分類規則は、森林の樹木の中で最も頻繁に予測される分類をそれぞれの観察に割り当てることによって導かれる。
提案手法は,最先端木分類法と同等あるいは優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-18T20:33:08Z) - Individualized and Global Feature Attributions for Gradient Boosted
Trees in the Presence of $\ell_2$ Regularization [0.0]
本稿では,プレデコン(PreDecomp)を提案する。プレデコン(PreDecomp,PreDecomp,PreDecomp)は,正規化を$ell$で訓練した場合に,増木に対する新規な個別化特徴属性である。
また、各ツリーのアウトサンプルデータに個々の特徴属性とラベルの内積で定義される、偏りのないグローバルな特徴属性のファミリーであるTreeInnerを提案する。
論文 参考訳(メタデータ) (2022-11-08T17:56:22Z) - Intersection Regularization for Extracting Semantic Attributes [72.53481390411173]
本稿では,ネットワーク抽出した特徴が意味属性のセットと一致するように,教師付き分類の問題を考える。
例えば、鳥類のイメージを種に分類することを学ぶとき、動物学者が鳥類を分類するために使用する特徴の出現を観察したい。
本稿では,複数層パーセプトロン(MLP)と並列決定木を併用した,離散的なトップレベルアクティベーションを持つニューラルネットワークのトレーニングを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:44Z) - Measure Inducing Classification and Regression Trees for Functional Data [0.0]
機能的データ分析の文脈における分類と回帰問題に対する木に基づくアルゴリズムを提案する。
これは、制約付き凸最適化により重み付き汎函数 L2$ 空間を学習することで達成される。
論文 参考訳(メタデータ) (2020-10-30T18:49:53Z) - Infinite Feature Selection: A Graph-based Feature Filtering Approach [78.63188057505012]
グラフ内の経路として特徴のサブセットを考慮したフィルタリング機能選択フレームワークを提案する。
無限に進むことで、選択プロセスの計算複雑性を制限できる。
Inf-FSはほとんどどんな状況でも、つまり、保持するフィーチャの数が優先順位に固定されているときに、より良く振る舞うことを示す。
論文 参考訳(メタデータ) (2020-06-15T07:20:40Z) - Parameterizing Branch-and-Bound Search Trees to Learn Branching Policies [76.83991682238666]
Branch and Bound (B&B) は、Mixed-Integer Linear Programming Problem (MILP) の解法として一般的に用いられる木探索法である。
本稿では,新しい模倣学習フレームワークを提案し,分岐を表現するための新しい入力機能とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-12T17:43:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。