論文の概要: Variable Selection for Kernel Two-Sample Tests
- arxiv url: http://arxiv.org/abs/2302.07415v3
- Date: Thu, 12 Oct 2023 14:08:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 04:11:59.246086
- Title: Variable Selection for Kernel Two-Sample Tests
- Title(参考訳): カーネル2サンプルテストの可変選択
- Authors: Jie Wang and Santanu S. Dey and Yao Xie
- Abstract要約: カーネルの最大平均誤差(MMD)に基づくフレームワークを提案する。
我々は混合整数型プログラミングの定式化を提案し、性能保証付き精度および近似アルゴリズムを開発した。
合成および実データを用いた実験結果から,本手法の優れた性能が示された。
- 参考スコア(独自算出の注目度): 10.768155884359777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the variable selection problem for two-sample tests, aiming to
select the most informative variables to distinguish samples from two groups.
To solve this problem, we propose a framework based on the kernel maximum mean
discrepancy (MMD). Our approach seeks a group of variables with a pre-specified
size that maximizes the variance-regularized MMD statistics. This formulation
also corresponds to the minimization of asymptotic type-II error while
controlling type-I error, as studied in the literature. We present
mixed-integer programming formulations and develop exact and approximation
algorithms with performance guarantees for different choices of kernel
functions. Furthermore, we provide a statistical testing power analysis of our
proposed framework. Experiment results on synthetic and real datasets
demonstrate the superior performance of our approach.
- Abstract(参考訳): 2つのグループから標本を区別する最も有益な変数を選択することを目的として, 2つのサンプルテストにおける変数選択問題を考える。
この問題を解決するために,カーネルの最大平均誤差(MMD)に基づくフレームワークを提案する。
提案手法は,分散正規化MDD統計量の最大化を図った,所定のサイズの変数群を求める。
この定式化はまた、文献で研究されているように、タイプIエラーを制御しながら、漸近型IIエラーの最小化に対応する。
本稿では,カーネル関数の異なる選択に対して,性能保証付き精度・近似アルゴリズムを提案する。
さらに,提案フレームワークの統計的テストパワー分析を行う。
合成および実データを用いた実験により,本手法の優れた性能を示す。
関連論文リスト
- A Kernel-Based Conditional Two-Sample Test Using Nearest Neighbors (with Applications to Calibration, Regression Curves, and Simulation-Based Inference) [3.622435665395788]
本稿では,2つの条件分布の違いを検出するカーネルベースの尺度を提案する。
2つの条件分布が同じである場合、推定はガウス極限を持ち、その分散はデータから容易に推定できる単純な形式を持つ。
また、条件付き適合性問題に適用可能な推定値を用いた再サンプリングベースのテストも提供する。
論文 参考訳(メタデータ) (2024-07-23T15:04:38Z) - Optimal Kernel Choice for Score Function-based Causal Discovery [92.65034439889872]
本稿では,データに最も適合する最適なカーネルを自動的に選択する,一般化スコア関数内のカーネル選択手法を提案する。
合成データと実世界のベンチマークの両方で実験を行い,提案手法がカーネル選択法より優れていることを示す。
論文 参考訳(メタデータ) (2024-07-14T09:32:20Z) - Variable Selection in Maximum Mean Discrepancy for Interpretable
Distribution Comparison [9.12501922682336]
2サンプルテストは、同じ分布から2つのデータセットが生成されるかどうかを決定する。
本稿では,2サンプルテストにおける変数選択について検討し,2つの分布の相違の原因となる変数を同定する。
論文 参考訳(メタデータ) (2023-11-02T18:38:39Z) - DF2: Distribution-Free Decision-Focused Learning [53.2476224456902]
決定中心学習(DFL)は近年,予測最適化問題に対する強力なアプローチとして出現している。
既存のエンドツーエンドDFL法は、モデル誤差、サンプル平均近似誤差、予測対象の分布に基づくパラメータ化の3つの重大なボトルネックによって妨げられている。
DF2は,これら3つのボトルネックに明示的に対処するために設計された,初となるテキストフリーな意思決定型学習手法である。
論文 参考訳(メタデータ) (2023-08-11T00:44:46Z) - Best-Subset Selection in Generalized Linear Models: A Fast and
Consistent Algorithm via Splicing Technique [0.6338047104436422]
ベストサブセットセクションは、このタイプの問題の聖杯として広く見なされている。
軽度条件下での最適部分集合回復のためのアルゴリズムを提案し,提案した。
我々の実装は、一般的な変数選択ツールキットと比較して約4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2023-08-01T03:11:31Z) - Boosting the Power of Kernel Two-Sample Tests [4.07125466598411]
最大平均誤差(MMD)に基づくカーネル2サンプルテストは、一般的な距離空間上の2つの分布の違いを検出する最も一般的な方法の1つである。
マハラノビス距離を用いて,複数のカーネル上でMDD推定値を組み合わせることで,カーネルテストのパワーを高める手法を提案する。
論文 参考訳(メタデータ) (2023-02-21T14:14:30Z) - Variational Autoencoder Kernel Interpretation and Selection for
Classification [59.30734371401315]
本研究では,変分オートエンコーダの畳み込みエンコーダによって生成された特徴に基づく確率的分類器のカーネル選択手法を提案する。
提案した実装では、各カーネルに対して各分散が生成されるため、各潜伏変数を最終エンコーダの畳み込み層の単一カーネルに関連付けられた分布からサンプリングした。
サンプル化された潜伏変数で関連する機能を選択することで、カーネルの選択を実行し、非形式的機能とカーネルをフィルタリングすることができる。
論文 参考訳(メタデータ) (2022-09-10T17:22:53Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Greedy Search Algorithms for Unsupervised Variable Selection: A
Comparative Study [3.4888132404740797]
本稿では,非監視変数選択に基づく次元還元について述べる。
本稿では,7つの非監視勾配変数選択アルゴリズムの臨界評価について述べる。
本稿では,FSCA(Forward selection component analysis)アルゴリズムで説明された分散の遅延実装を初めて導入し,評価する。
論文 参考訳(メタデータ) (2021-03-03T21:10:26Z) - Learning Deep Kernels for Non-Parametric Two-Sample Tests [50.92621794426821]
2組のサンプルが同じ分布から引き出されるかどうかを判定するカーネルベースの2サンプルテストのクラスを提案する。
私たちのテストは、テストパワーを最大化するためにトレーニングされたディープニューラルネットワークによってパラメータ化されたカーネルから構築されます。
論文 参考訳(メタデータ) (2020-02-21T03:54:23Z) - Distributed Averaging Methods for Randomized Second Order Optimization [54.51566432934556]
我々はヘッセン語の形成が計算的に困難であり、通信がボトルネックとなる分散最適化問題を考察する。
我々は、ヘッセンのサンプリングとスケッチを用いたランダム化二階最適化のための非バイアスパラメータ平均化手法を開発した。
また、不均一なコンピューティングシステムのための非バイアス分散最適化フレームワークを導入するために、二階平均化手法のフレームワークを拡張した。
論文 参考訳(メタデータ) (2020-02-16T09:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。