論文の概要: Variable Selection in Maximum Mean Discrepancy for Interpretable
Distribution Comparison
- arxiv url: http://arxiv.org/abs/2311.01537v1
- Date: Thu, 2 Nov 2023 18:38:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 16:17:04.131767
- Title: Variable Selection in Maximum Mean Discrepancy for Interpretable
Distribution Comparison
- Title(参考訳): 解釈可能な分布比較のための最大平均差の変数選択
- Authors: Kensuke Mitsuzawa, Motonobu Kanagawa, Stefano Bortoli, Margherita
Grossi and Paolo Papotti
- Abstract要約: 2サンプルテストは、同じ分布から2つのデータセットが生成されるかどうかを決定する。
本稿では,2サンプルテストにおける変数選択について検討し,2つの分布の相違の原因となる変数を同定する。
- 参考スコア(独自算出の注目度): 9.12501922682336
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Two-sample testing decides whether two datasets are generated from the same
distribution. This paper studies variable selection for two-sample testing, the
task being to identify the variables (or dimensions) responsible for the
discrepancies between the two distributions. This task is relevant to many
problems of pattern analysis and machine learning, such as dataset shift
adaptation, causal inference and model validation. Our approach is based on a
two-sample test based on the Maximum Mean Discrepancy (MMD). We optimise the
Automatic Relevance Detection (ARD) weights defined for individual variables to
maximise the power of the MMD-based test. For this optimisation, we introduce
sparse regularisation and propose two methods for dealing with the issue of
selecting an appropriate regularisation parameter. One method determines the
regularisation parameter in a data-driven way, and the other aggregates the
results of different regularisation parameters. We confirm the validity of the
proposed methods by systematic comparisons with baseline methods, and
demonstrate their usefulness in exploratory analysis of high-dimensional
traffic simulation data. Preliminary theoretical analyses are also provided,
including a rigorous definition of variable selection for two-sample testing.
- Abstract(参考訳): 2サンプルテストは、2つのデータセットが同じ分布から生成されるかどうかを決定する。
本稿では,2サンプルテストにおける変数選択について検討し,2つの分布の相違の原因となる変数(あるいは次元)を同定する。
このタスクは、データセットシフト適応、因果推論、モデル検証など、パターン分析と機械学習の多くの問題に関係している。
提案手法は,最大平均偏差(mmd)に基づく2サンプルテストに基づいている。
個々の変数に対して定義される自動相関検出(ard)重みを最適化し、mmdベースのテストのパワーを最大化する。
この最適化のために、スパース正規化を導入し、適切な正規化パラメータを選択するための2つの方法を提案する。
1つのメソッドはデータ駆動方式で正規化パラメータを決定し、もう1つは異なる正規化パラメータの結果を集約する。
提案手法をベースライン法と体系的に比較して妥当性を確認し,高次元トラヒックシミュレーションデータの探索的解析における有用性を示す。
2つのサンプルテストのための変数選択の厳密な定義を含む予備的な理論解析も提供されている。
関連論文リスト
- Unified Convergence Analysis for Score-Based Diffusion Models with Deterministic Samplers [49.1574468325115]
決定論的サンプリングのための統合収束分析フレームワークを提案する。
我々のフレームワークは$tilde O(d2/epsilon)$の反復複雑性を実現する。
また,Denoising Implicit Diffusion Models (DDIM) タイプのサンプルについて詳細な分析を行った。
論文 参考訳(メタデータ) (2024-10-18T07:37:36Z) - Generative vs. Discriminative modeling under the lens of uncertainty quantification [0.929965561686354]
本稿では,生成的アプローチと識別的アプローチの比較分析を行った。
両手法が,不確実性を考慮した推論において,様々な情報源からの情報を活用する能力を比較する。
本稿では,両手法の教師あり学習と,検討されたモデリング手法と互換性のあるセミ教師あり学習を実現するための一般的なサンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:32:43Z) - Winning Prize Comes from Losing Tickets: Improve Invariant Learning by
Exploring Variant Parameters for Out-of-Distribution Generalization [76.27711056914168]
Out-of-Distribution (OOD) 一般化は、分散固有の特徴に適合することなく、様々な環境によく適応する堅牢なモデルを学ぶことを目的としている。
LTH(Lottery Ticket hypothesis)に基づく最近の研究は、学習目標を最小化し、タスクに重要なパラメータのいくつかを見つけることでこの問題に対処している。
Invariant Learning (EVIL) における変数探索手法を提案する。
論文 参考訳(メタデータ) (2023-10-25T06:10:57Z) - Variable Selection for Kernel Two-Sample Tests [10.768155884359777]
カーネルの最大平均誤差(MMD)に基づくフレームワークを提案する。
我々は混合整数型プログラミングの定式化を提案し、性能保証付き精度および近似アルゴリズムを開発した。
合成および実データを用いた実験結果から,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2023-02-15T00:39:56Z) - Spectral Regularized Kernel Two-Sample Tests [7.915420897195129]
MMD (maximum mean discrepancy) two-sample test to be optimal to the terms of the separation boundary in the Hellinger distance。
スペクトル正則化に基づくMDD試験の修正を提案し,MMD試験よりも分離境界が小さく,最小限の試験が最適であることを証明した。
その結果,テストしきい値がエレガントに選択されるテストの置換変種が,サンプルの置換によって決定されることがわかった。
論文 参考訳(メタデータ) (2022-12-19T00:42:21Z) - Two-Stage Robust and Sparse Distributed Statistical Inference for
Large-Scale Data [18.34490939288318]
本稿では,高次元データやオフレーヤによって汚染される可能性のある大規模データを含む設定において,統計的推論を行うという課題に対処する。
空間性を促進することによって高次元モデルに対処する2段階の分散および頑健な統計的推論手法を提案する。
論文 参考訳(メタデータ) (2022-08-17T11:17:47Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Greedy Search Algorithms for Unsupervised Variable Selection: A
Comparative Study [3.4888132404740797]
本稿では,非監視変数選択に基づく次元還元について述べる。
本稿では,7つの非監視勾配変数選択アルゴリズムの臨界評価について述べる。
本稿では,FSCA(Forward selection component analysis)アルゴリズムで説明された分散の遅延実装を初めて導入し,評価する。
論文 参考訳(メタデータ) (2021-03-03T21:10:26Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。