論文の概要: Learning Interpretable Characteristic Kernels via Decision Forests
- arxiv url: http://arxiv.org/abs/1812.00029v3
- Date: Thu, 28 Sep 2023 17:47:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 23:33:04.993207
- Title: Learning Interpretable Characteristic Kernels via Decision Forests
- Title(参考訳): 森林決定による解釈可能な特徴カーネルの学習
- Authors: Sambit Panda and Cencheng Shen and Joshua T. Vogelstein
- Abstract要約: 我々はKMERF(Kernel Mean Embedding Random Forests)を構築した。
我々はKMERFカーネルが離散データと連続データの両方に特徴的なことを証明した。
KMERFは、現在最先端のカーネルベースのテストでほぼ支配的であることを示す。
- 参考スコア(独自算出の注目度): 9.437774630297463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision forests are widely used for classification and regression tasks. A
lesser known property of tree-based methods is that one can construct a
proximity matrix from the tree(s), and these proximity matrices are induced
kernels. While there has been extensive research on the applications and
properties of kernels, there is relatively little research on kernels induced
by decision forests. We construct Kernel Mean Embedding Random Forests (KMERF),
which induce kernels from random trees and/or forests using leaf-node
proximity. We introduce the notion of an asymptotically characteristic kernel,
and prove that KMERF kernels are asymptotically characteristic for both
discrete and continuous data. Because KMERF is data-adaptive, we suspected it
would outperform kernels selected a priori on finite sample data. We illustrate
that KMERF nearly dominates current state-of-the-art kernel-based tests across
a diverse range of high-dimensional two-sample and independence testing
settings. Furthermore, our forest-based approach is interpretable, and provides
feature importance metrics that readily distinguish important dimensions,
unlike other high-dimensional non-parametric testing procedures. Hence, this
work demonstrates the decision forest-based kernel can be more powerful and
more interpretable than existing methods, flying in the face of conventional
wisdom of the trade-off between the two.
- Abstract(参考訳): 決定林は分類や回帰作業に広く利用されている。
木に基づく手法のより少ない性質は、木(s) から近接行列を構築することができ、これらの近接行列は誘導されたカーネルである。
カーネルの応用や特性に関する広範な研究があるが、決定的森林によって引き起こされるカーネルに関する研究は比較的少ない。
KMERF(Kernel Mean Embedding Random Forests)を構築し,葉ノード近傍からランダムな木や森林からカーネルを誘導する。
我々は漸近的特性を持つカーネルの概念を導入し、kmerfカーネルが離散データと連続データの両方に対して漸近的特性であることを証明する。
KMERFはデータ適応性が高いため、有限サンプルデータから選択したプリオリを上回りかねない。
KMERFは、多種多様な高次元の2サンプルおよび独立性テスト設定において、現在最先端のカーネルベースのテストを支配している。
さらに、森林ベースのアプローチは解釈可能であり、他の高次元非パラメトリックテスト手順とは異なり、重要な次元を容易に区別する特徴的重要度メトリクスを提供する。
したがって,本研究は,従来からある2つの手法間のトレードオフの知恵に直面しながら,既存の手法よりも決定的なフォレストベースのカーネルが強力かつ解釈可能であることを示す。
関連論文リスト
- Optimal Kernel Choice for Score Function-based Causal Discovery [92.65034439889872]
本稿では,データに最も適合する最適なカーネルを自動的に選択する,一般化スコア関数内のカーネル選択手法を提案する。
合成データと実世界のベンチマークの両方で実験を行い,提案手法がカーネル選択法より優れていることを示す。
論文 参考訳(メタデータ) (2024-07-14T09:32:20Z) - MMD-FUSE: Learning and Combining Kernels for Two-Sample Testing Without
Data Splitting [28.59390881834003]
最大平均離散性(MMD)に基づく2サンプルテストのパワーを最大化する新しい統計法を提案する。
これらのカーネルは、データ分割を避けるために、よく校正されたテストで、データ依存だが置換に依存しない方法でどのように選択できるかを示す。
我々は,合成低次元および実世界の高次元データに対するMDD-FUSEテストの適用性を強調し,その性能を現状のカーネルテストと比較した。
論文 参考訳(メタデータ) (2023-06-14T23:13:03Z) - Boosting the Power of Kernel Two-Sample Tests [4.07125466598411]
最大平均誤差(MMD)に基づくカーネル2サンプルテストは、一般的な距離空間上の2つの分布の違いを検出する最も一般的な方法の1つである。
マハラノビス距離を用いて,複数のカーネル上でMDD推定値を組み合わせることで,カーネルテストのパワーを高める手法を提案する。
論文 参考訳(メタデータ) (2023-02-21T14:14:30Z) - RFFNet: Large-Scale Interpretable Kernel Methods via Random Fourier Features [3.0079490585515347]
RFFNetは1次最適化によってカーネルの関連性をリアルタイムで学習するスケーラブルな手法である。
提案手法はメモリフットプリントが小さく,実行時,予測誤差が低く,関連する特徴を効果的に識別できることを示す。
私たちは、Scikit-learn標準APIと結果を完全に再現するためのコードに準拠した、効率的でPyTorchベースのライブラリをユーザに提供します。
論文 参考訳(メタデータ) (2022-11-11T18:50:34Z) - Variational Autoencoder Kernel Interpretation and Selection for
Classification [59.30734371401315]
本研究では,変分オートエンコーダの畳み込みエンコーダによって生成された特徴に基づく確率的分類器のカーネル選択手法を提案する。
提案した実装では、各カーネルに対して各分散が生成されるため、各潜伏変数を最終エンコーダの畳み込み層の単一カーネルに関連付けられた分布からサンプリングした。
サンプル化された潜伏変数で関連する機能を選択することで、カーネルの選択を実行し、非形式的機能とカーネルをフィルタリングすることができる。
論文 参考訳(メタデータ) (2022-09-10T17:22:53Z) - Meta-Learning Hypothesis Spaces for Sequential Decision-making [79.73213540203389]
オフラインデータ(Meta-KeL)からカーネルをメタ学習することを提案する。
穏やかな条件下では、推定されたRKHSが有効な信頼セットを得られることを保証します。
また,ベイズ最適化におけるアプローチの有効性を実証的に評価した。
論文 参考訳(メタデータ) (2022-02-01T17:46:51Z) - Kernel Two-Sample Tests in High Dimension: Interplay Between Moment Discrepancy and Dimension-and-Sample Orders [1.9303929635966661]
本研究では,カーネル2サンプル試験において,寸法と試料サイズが無限大に分散する場合の挙動について検討する。
我々は、ヌル仮説と局所的および固定的な選択肢の両方の下で中心極限定理(CLT)を確立する。
新たな非ヌルなCLT結果により,検出可能なモーメント差の微妙な相互作用が明らかとなる,正確な電力解析が可能となった。
論文 参考訳(メタデータ) (2021-12-31T23:12:44Z) - A Note on Optimizing Distributions using Kernel Mean Embeddings [94.96262888797257]
カーネル平均埋め込みは、その無限次元平均埋め込みによる確率測度を表す。
カーネルが特徴的である場合、カーネルの総和密度を持つ分布は密度が高いことを示す。
有限サンプル設定でそのような分布を最適化するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-06-18T08:33:45Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - (Decision and regression) tree ensemble based kernels for regression and
classification [2.28438857884398]
Breiman's random forest (RF) や Gradient Boosted Trees (GBT) のような木に基づくアンサンブルは暗黙のカーネルジェネレータとして解釈できる。
連続目標に対して、RF/GBTカーネルは高次元シナリオにおいてそれぞれのアンサンブルと競合することを示す。
回帰と分類のための実際のデータセットの結果を提供し、これらの洞察が実際にどのように活用されるかを示します。
論文 参考訳(メタデータ) (2020-12-19T16:52:58Z) - Learning Deep Kernels for Non-Parametric Two-Sample Tests [50.92621794426821]
2組のサンプルが同じ分布から引き出されるかどうかを判定するカーネルベースの2サンプルテストのクラスを提案する。
私たちのテストは、テストパワーを最大化するためにトレーニングされたディープニューラルネットワークによってパラメータ化されたカーネルから構築されます。
論文 参考訳(メタデータ) (2020-02-21T03:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。