論文の概要: Variable Selection in Maximum Mean Discrepancy for Interpretable
Distribution Comparison
- arxiv url: http://arxiv.org/abs/2311.01537v1
- Date: Thu, 2 Nov 2023 18:38:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-11-06 16:17:04.131767
- Title: Variable Selection in Maximum Mean Discrepancy for Interpretable
Distribution Comparison
- Title(参考訳): 解釈可能な分布比較のための最大平均差の変数選択
- Authors: Kensuke Mitsuzawa, Motonobu Kanagawa, Stefano Bortoli, Margherita
Grossi and Paolo Papotti
- Abstract要約: 2サンプルテストは、同じ分布から2つのデータセットが生成されるかどうかを決定する。
本稿では,2サンプルテストにおける変数選択について検討し,2つの分布の相違の原因となる変数を同定する。
- 参考スコア(独自算出の注目度): 9.12501922682336
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Two-sample testing decides whether two datasets are generated from the same
distribution. This paper studies variable selection for two-sample testing, the
task being to identify the variables (or dimensions) responsible for the
discrepancies between the two distributions. This task is relevant to many
problems of pattern analysis and machine learning, such as dataset shift
adaptation, causal inference and model validation. Our approach is based on a
two-sample test based on the Maximum Mean Discrepancy (MMD). We optimise the
Automatic Relevance Detection (ARD) weights defined for individual variables to
maximise the power of the MMD-based test. For this optimisation, we introduce
sparse regularisation and propose two methods for dealing with the issue of
selecting an appropriate regularisation parameter. One method determines the
regularisation parameter in a data-driven way, and the other aggregates the
results of different regularisation parameters. We confirm the validity of the
proposed methods by systematic comparisons with baseline methods, and
demonstrate their usefulness in exploratory analysis of high-dimensional
traffic simulation data. Preliminary theoretical analyses are also provided,
including a rigorous definition of variable selection for two-sample testing.
- Abstract(参考訳): 2サンプルテストは、2つのデータセットが同じ分布から生成されるかどうかを決定する。
本稿では,2サンプルテストにおける変数選択について検討し,2つの分布の相違の原因となる変数(あるいは次元)を同定する。
このタスクは、データセットシフト適応、因果推論、モデル検証など、パターン分析と機械学習の多くの問題に関係している。
提案手法は,最大平均偏差(mmd)に基づく2サンプルテストに基づいている。
個々の変数に対して定義される自動相関検出(ard)重みを最適化し、mmdベースのテストのパワーを最大化する。
この最適化のために、スパース正規化を導入し、適切な正規化パラメータを選択するための2つの方法を提案する。
1つのメソッドはデータ駆動方式で正規化パラメータを決定し、もう1つは異なる正規化パラメータの結果を集約する。
提案手法をベースライン法と体系的に比較して妥当性を確認し,高次元トラヒックシミュレーションデータの探索的解析における有用性を示す。
2つのサンプルテストのための変数選択の厳密な定義を含む予備的な理論解析も提供されている。
関連論文リスト
- On the Interconnections of Calibration, Quantification, and Classifier Accuracy Prediction under Dataset Shift [58.91436551466064]
本稿では,データセットシフト条件下でのキャリブレーションと定量化の3つの基本問題間の相互接続について検討する。
これらのタスクのいずれか1つに対するオラクルへのアクセスは、他の2つのタスクの解決を可能にすることを示す。
本稿では,他の分野から借用した高度に確立された手法の直接適応に基づく各問題に対する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-16T15:42:55Z) - GeneralizeFormer: Layer-Adaptive Model Generation across Test-Time Distribution Shifts [58.95913531746308]
テスト時間領域の一般化の問題は、モデルが複数のソースドメインで訓練され、トレーニング中に見たことのないターゲットドメインで調整される場合である。
textitGeneralizeFormer と呼ばれる軽量メタ学習変換器を用いて,推論中に複数の層パラメータを生成することを提案する。
論文 参考訳(メタデータ) (2025-02-15T10:10:49Z) - Towards Self-Supervised Covariance Estimation in Deep Heteroscedastic Regression [102.24287051757469]
深部異方性回帰における自己教師付き共分散推定について検討する。
正規分布の間の2-ワッサーシュタイン距離の上界を導出する。
幅広い合成データセットと実データセットに対する実験により、提案された2-ワッサーシュタインと擬似ラベルアノテーションが結合した結果、計算的に安価で正確な深部ヘテロ代用回帰が導かれることが示された。
論文 参考訳(メタデータ) (2025-02-14T22:37:11Z) - An Iterative Bayesian Approach for System Identification based on Linear Gaussian Models [86.05414211113627]
システム識別の問題に取り組み、入力を選択し、実際のシステムから対応する出力を観測し、データに最も合うようにモデルのパラメータを最適化する。
本稿では,任意のシステムやパラメトリックモデルと互換性のある,フレキシブルで計算可能な手法を提案する。
論文 参考訳(メタデータ) (2025-01-28T01:57:51Z) - Unified Convergence Analysis for Score-Based Diffusion Models with Deterministic Samplers [49.1574468325115]
決定論的サンプリングのための統合収束分析フレームワークを提案する。
我々のフレームワークは$tilde O(d2/epsilon)$の反復複雑性を実現する。
また,Denoising Implicit Diffusion Models (DDIM) タイプのサンプルについて詳細な分析を行った。
論文 参考訳(メタデータ) (2024-10-18T07:37:36Z) - Generative vs. Discriminative modeling under the lens of uncertainty quantification [0.929965561686354]
本稿では,生成的アプローチと識別的アプローチの比較分析を行った。
両手法が,不確実性を考慮した推論において,様々な情報源からの情報を活用する能力を比較する。
本稿では,両手法の教師あり学習と,検討されたモデリング手法と互換性のあるセミ教師あり学習を実現するための一般的なサンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:32:43Z) - Proxy Methods for Domain Adaptation [78.03254010884783]
プロキシ変数は、遅延変数を明示的にリカバリしたりモデル化したりすることなく、分散シフトへの適応を可能にする。
両設定の複雑な分散シフトに適応する2段階のカーネル推定手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T09:32:41Z) - Data-driven path collective variables [0.0]
本稿では,集合変数の生成,最適化,比較のための新しい手法を提案する。
結果として得られる集合変数は1次元、解釈可能、微分可能である。
2つの異なるアプリケーションに対して,本手法の有効性を示す。
論文 参考訳(メタデータ) (2023-12-21T14:07:47Z) - Winning Prize Comes from Losing Tickets: Improve Invariant Learning by
Exploring Variant Parameters for Out-of-Distribution Generalization [76.27711056914168]
Out-of-Distribution (OOD) 一般化は、分散固有の特徴に適合することなく、様々な環境によく適応する堅牢なモデルを学ぶことを目的としている。
LTH(Lottery Ticket hypothesis)に基づく最近の研究は、学習目標を最小化し、タスクに重要なパラメータのいくつかを見つけることでこの問題に対処している。
Invariant Learning (EVIL) における変数探索手法を提案する。
論文 参考訳(メタデータ) (2023-10-25T06:10:57Z) - Scalable variable selection for two-view learning tasks with projection
operators [0.0]
本稿では,2視点設定やベクトル値による教師付き学習問題に対して,新しい変数選択法を提案する。
当社のフレームワークは,データサンプルの数が数百万にものぼる,非常に大規模な選択タスクを処理できる。
論文 参考訳(メタデータ) (2023-07-04T08:22:05Z) - Variable Selection for Kernel Two-Sample Tests [10.768155884359777]
カーネルの最大平均誤差(MMD)に基づくフレームワークを提案する。
我々は混合整数型プログラミングの定式化を提案し、性能保証付き精度および近似アルゴリズムを開発した。
合成および実データを用いた実験結果から,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2023-02-15T00:39:56Z) - Spectral Regularized Kernel Two-Sample Tests [7.915420897195129]
MMD (maximum mean discrepancy) two-sample test to be optimal to the terms of the separation boundary in the Hellinger distance。
スペクトル正則化に基づくMDD試験の修正を提案し,MMD試験よりも分離境界が小さく,最小限の試験が最適であることを証明した。
その結果,テストしきい値がエレガントに選択されるテストの置換変種が,サンプルの置換によって決定されることがわかった。
論文 参考訳(メタデータ) (2022-12-19T00:42:21Z) - Variational Autoencoder Kernel Interpretation and Selection for
Classification [59.30734371401315]
本研究では,変分オートエンコーダの畳み込みエンコーダによって生成された特徴に基づく確率的分類器のカーネル選択手法を提案する。
提案した実装では、各カーネルに対して各分散が生成されるため、各潜伏変数を最終エンコーダの畳み込み層の単一カーネルに関連付けられた分布からサンプリングした。
サンプル化された潜伏変数で関連する機能を選択することで、カーネルの選択を実行し、非形式的機能とカーネルをフィルタリングすることができる。
論文 参考訳(メタデータ) (2022-09-10T17:22:53Z) - Two-Stage Robust and Sparse Distributed Statistical Inference for
Large-Scale Data [18.34490939288318]
本稿では,高次元データやオフレーヤによって汚染される可能性のある大規模データを含む設定において,統計的推論を行うという課題に対処する。
空間性を促進することによって高次元モデルに対処する2段階の分散および頑健な統計的推論手法を提案する。
論文 参考訳(メタデータ) (2022-08-17T11:17:47Z) - Equivariance Discovery by Learned Parameter-Sharing [153.41877129746223]
データから解釈可能な等価性を発見する方法について検討する。
具体的には、モデルのパラメータ共有方式に対する最適化問題として、この発見プロセスを定式化する。
また,ガウスデータの手法を理論的に解析し,研究された発見スキームとオラクルスキームの間の平均2乗ギャップを限定する。
論文 参考訳(メタデータ) (2022-04-07T17:59:19Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Linear Discriminant Analysis with High-dimensional Mixed Variables [10.774094462083843]
本稿では,混合変数を用いた高次元観測の分類手法を提案する。
データを指数関数的に多くのセルに分割するという課題を克服する。
推定精度と誤分類率に関する結果が確立される。
論文 参考訳(メタデータ) (2021-12-14T03:57:56Z) - Learning Conditional Invariance through Cycle Consistency [60.85059977904014]
本稿では,データセットの変動の有意義な要因と独立な要因を識別する新しい手法を提案する。
提案手法は,対象プロパティと残りの入力情報に対する2つの別個の潜在部分空間を含む。
我々は,より意味のある因子を同定し,よりスペーサーや解釈可能なモデルに導く合成および分子データについて実証する。
論文 参考訳(メタデータ) (2021-11-25T17:33:12Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Variational inference with a quantum computer [0.0]
推論(inference)は、関連する変数の観測から、観察されない変数に関する結論を導くタスクである。
確率分布は、観測されていない変数に対する後方分布を近似するために最適化される。
本研究では,離散変数上の変分分布として量子ボーンマシンを提案する。
論文 参考訳(メタデータ) (2021-03-11T15:12:21Z) - Greedy Search Algorithms for Unsupervised Variable Selection: A
Comparative Study [3.4888132404740797]
本稿では,非監視変数選択に基づく次元還元について述べる。
本稿では,7つの非監視勾配変数選択アルゴリズムの臨界評価について述べる。
本稿では,FSCA(Forward selection component analysis)アルゴリズムで説明された分散の遅延実装を初めて導入し,評価する。
論文 参考訳(メタデータ) (2021-03-03T21:10:26Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Stable Prediction via Leveraging Seed Variable [73.9770220107874]
従来の機械学習手法は、非因果変数によって誘導されるトレーニングデータにおいて、微妙に刺激的な相関を利用して予測する。
本研究では, 条件付き独立性テストに基づくアルゴリズムを提案し, 種子変数を先行変数とする因果変数を分離し, 安定な予測に採用する。
我々のアルゴリズムは、安定した予測のための最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-06-09T06:56:31Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。