論文の概要: Variable Selection in Maximum Mean Discrepancy for Interpretable Distribution Comparison
- arxiv url: http://arxiv.org/abs/2311.01537v2
- Date: Tue, 04 Nov 2025 20:01:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.011435
- Title: Variable Selection in Maximum Mean Discrepancy for Interpretable Distribution Comparison
- Title(参考訳): 解釈可能な分布比較のための最大平均差の変数選択
- Authors: Kensuke Mitsuzawa, Motonobu Kanagawa, Stefano Bortoli, Margherita Grossi, Paolo Papotti,
- Abstract要約: 2サンプル変数選択は、2組のデータベクトルの分布を区別する変数を特定する。
本稿では,変数の識別集合に関する数学的概念を紹介する。
本稿では,変数に重みを割り当て,それらを最適化する2サンプル変数選択法を提案する。
- 参考スコア(独自算出の注目度): 9.73988606052838
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We study two-sample variable selection: identifying variables that discriminate between the distributions of two sets of data vectors. Such variables help scientists understand the mechanisms behind dataset discrepancies. Although domain-specific methods exist (e.g., in medical imaging, genetics, and computational social science), a general framework remains underdeveloped. We make two separate contributions. (i) We introduce a mathematical notion of the discriminating set of variables: the largest subset containing no variables whose marginals are identical across the two distributions and independent of the remaining variables. We prove this set is uniquely defined and establish further properties, making it a suitable ground truth for theory and evaluation. (ii) We propose two methods for two-sample variable selection that assign weights to variables and optimise them to maximise the power of a kernel two-sample test while enforcing sparsity to downweight redundant variables. To select the regularisation parameter - unknown in practice, as it controls the number of selected variables - we develop two data-driven procedures to balance recall and precision. Synthetic experiments show improved performance over baselines, and we illustrate the approach on two applications using datasets from water-pipe and traffic networks.
- Abstract(参考訳): 本研究では,2組のデータベクトルの分布を区別する変数を同定する2サンプル変数選択法について検討する。
このような変数は、データセットの不一致の背後にあるメカニズムを理解するのに役立つ。
ドメイン固有の手法(医療画像、遺伝学、計算社会科学など)は存在するが、一般的な枠組みはまだ未発達である。
私たちは2つのコントリビューションを行います。
i) 2つの分布の辺が同一であり、残りの変数とは独立な変数を含む最大部分集合。
我々は、この集合が一意に定義され、さらなる性質を確立することを証明し、理論と評価に適した基礎的真理となる。
2) 2サンプル変数選択のための2つの手法を提案し, 重み付けを変数に割り当て, カーネルの2サンプルテストのパワーを最大化するために最適化する。
正規化パラメータ – 実際に未知の – を選択するために,リコールと精度のバランスをとるために,データ駆動型の2つの手順を開発した。
合成実験により,ベースラインよりも性能が向上し,水管と交通ネットワークのデータセットを用いた2つのアプリケーションに対するアプローチが示された。
関連論文リスト
- On the Interconnections of Calibration, Quantification, and Classifier Accuracy Prediction under Dataset Shift [58.91436551466064]
本稿では,データセットシフト条件下でのキャリブレーションと定量化の3つの基本問題間の相互接続について検討する。
これらのタスクのいずれか1つに対するオラクルへのアクセスは、他の2つのタスクの解決を可能にすることを示す。
本稿では,他の分野から借用した高度に確立された手法の直接適応に基づく各問題に対する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-16T15:42:55Z) - GeneralizeFormer: Layer-Adaptive Model Generation across Test-Time Distribution Shifts [58.95913531746308]
テスト時間領域の一般化の問題は、モデルが複数のソースドメインで訓練され、トレーニング中に見たことのないターゲットドメインで調整される場合である。
textitGeneralizeFormer と呼ばれる軽量メタ学習変換器を用いて,推論中に複数の層パラメータを生成することを提案する。
論文 参考訳(メタデータ) (2025-02-15T10:10:49Z) - Towards Self-Supervised Covariance Estimation in Deep Heteroscedastic Regression [102.24287051757469]
深部異方性回帰における自己教師付き共分散推定について検討する。
正規分布の間の2-ワッサーシュタイン距離の上界を導出する。
幅広い合成データセットと実データセットに対する実験により、提案された2-ワッサーシュタインと擬似ラベルアノテーションが結合した結果、計算的に安価で正確な深部ヘテロ代用回帰が導かれることが示された。
論文 参考訳(メタデータ) (2025-02-14T22:37:11Z) - An Iterative Bayesian Approach for System Identification based on Linear Gaussian Models [86.05414211113627]
システム識別の問題に取り組み、入力を選択し、実際のシステムから対応する出力を観測し、データに最も合うようにモデルのパラメータを最適化する。
本稿では,任意のシステムやパラメトリックモデルと互換性のある,フレキシブルで計算可能な手法を提案する。
論文 参考訳(メタデータ) (2025-01-28T01:57:51Z) - Unified Convergence Analysis for Score-Based Diffusion Models with Deterministic Samplers [49.1574468325115]
決定論的サンプリングのための統合収束分析フレームワークを提案する。
我々のフレームワークは$tilde O(d2/epsilon)$の反復複雑性を実現する。
また,Denoising Implicit Diffusion Models (DDIM) タイプのサンプルについて詳細な分析を行った。
論文 参考訳(メタデータ) (2024-10-18T07:37:36Z) - Generative vs. Discriminative modeling under the lens of uncertainty quantification [0.929965561686354]
本稿では,生成的アプローチと識別的アプローチの比較分析を行った。
両手法が,不確実性を考慮した推論において,様々な情報源からの情報を活用する能力を比較する。
本稿では,両手法の教師あり学習と,検討されたモデリング手法と互換性のあるセミ教師あり学習を実現するための一般的なサンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:32:43Z) - Proxy Methods for Domain Adaptation [78.03254010884783]
プロキシ変数は、遅延変数を明示的にリカバリしたりモデル化したりすることなく、分散シフトへの適応を可能にする。
両設定の複雑な分散シフトに適応する2段階のカーネル推定手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T09:32:41Z) - Data-driven path collective variables [0.0]
本稿では,集合変数の生成,最適化,比較のための新しい手法を提案する。
結果として得られる集合変数は1次元、解釈可能、微分可能である。
2つの異なるアプリケーションに対して,本手法の有効性を示す。
論文 参考訳(メタデータ) (2023-12-21T14:07:47Z) - Winning Prize Comes from Losing Tickets: Improve Invariant Learning by
Exploring Variant Parameters for Out-of-Distribution Generalization [76.27711056914168]
Out-of-Distribution (OOD) 一般化は、分散固有の特徴に適合することなく、様々な環境によく適応する堅牢なモデルを学ぶことを目的としている。
LTH(Lottery Ticket hypothesis)に基づく最近の研究は、学習目標を最小化し、タスクに重要なパラメータのいくつかを見つけることでこの問題に対処している。
Invariant Learning (EVIL) における変数探索手法を提案する。
論文 参考訳(メタデータ) (2023-10-25T06:10:57Z) - Scalable variable selection for two-view learning tasks with projection
operators [0.0]
本稿では,2視点設定やベクトル値による教師付き学習問題に対して,新しい変数選択法を提案する。
当社のフレームワークは,データサンプルの数が数百万にものぼる,非常に大規模な選択タスクを処理できる。
論文 参考訳(メタデータ) (2023-07-04T08:22:05Z) - Variable Selection for Kernel Two-Sample Tests [10.768155884359777]
カーネルの最大平均誤差(MMD)に基づくフレームワークを提案する。
我々は混合整数型プログラミングの定式化を提案し、性能保証付き精度および近似アルゴリズムを開発した。
合成および実データを用いた実験結果から,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2023-02-15T00:39:56Z) - Spectral Regularized Kernel Two-Sample Tests [7.915420897195129]
MMD (maximum mean discrepancy) two-sample test to be optimal to the terms of the separation boundary in the Hellinger distance。
スペクトル正則化に基づくMDD試験の修正を提案し,MMD試験よりも分離境界が小さく,最小限の試験が最適であることを証明した。
その結果,テストしきい値がエレガントに選択されるテストの置換変種が,サンプルの置換によって決定されることがわかった。
論文 参考訳(メタデータ) (2022-12-19T00:42:21Z) - Variational Autoencoder Kernel Interpretation and Selection for
Classification [59.30734371401315]
本研究では,変分オートエンコーダの畳み込みエンコーダによって生成された特徴に基づく確率的分類器のカーネル選択手法を提案する。
提案した実装では、各カーネルに対して各分散が生成されるため、各潜伏変数を最終エンコーダの畳み込み層の単一カーネルに関連付けられた分布からサンプリングした。
サンプル化された潜伏変数で関連する機能を選択することで、カーネルの選択を実行し、非形式的機能とカーネルをフィルタリングすることができる。
論文 参考訳(メタデータ) (2022-09-10T17:22:53Z) - Two-Stage Robust and Sparse Distributed Statistical Inference for
Large-Scale Data [18.34490939288318]
本稿では,高次元データやオフレーヤによって汚染される可能性のある大規模データを含む設定において,統計的推論を行うという課題に対処する。
空間性を促進することによって高次元モデルに対処する2段階の分散および頑健な統計的推論手法を提案する。
論文 参考訳(メタデータ) (2022-08-17T11:17:47Z) - Equivariance Discovery by Learned Parameter-Sharing [153.41877129746223]
データから解釈可能な等価性を発見する方法について検討する。
具体的には、モデルのパラメータ共有方式に対する最適化問題として、この発見プロセスを定式化する。
また,ガウスデータの手法を理論的に解析し,研究された発見スキームとオラクルスキームの間の平均2乗ギャップを限定する。
論文 参考訳(メタデータ) (2022-04-07T17:59:19Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Linear Discriminant Analysis with High-dimensional Mixed Variables [10.774094462083843]
本稿では,混合変数を用いた高次元観測の分類手法を提案する。
データを指数関数的に多くのセルに分割するという課題を克服する。
推定精度と誤分類率に関する結果が確立される。
論文 参考訳(メタデータ) (2021-12-14T03:57:56Z) - Learning Conditional Invariance through Cycle Consistency [60.85059977904014]
本稿では,データセットの変動の有意義な要因と独立な要因を識別する新しい手法を提案する。
提案手法は,対象プロパティと残りの入力情報に対する2つの別個の潜在部分空間を含む。
我々は,より意味のある因子を同定し,よりスペーサーや解釈可能なモデルに導く合成および分子データについて実証する。
論文 参考訳(メタデータ) (2021-11-25T17:33:12Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Variational inference with a quantum computer [0.0]
推論(inference)は、関連する変数の観測から、観察されない変数に関する結論を導くタスクである。
確率分布は、観測されていない変数に対する後方分布を近似するために最適化される。
本研究では,離散変数上の変分分布として量子ボーンマシンを提案する。
論文 参考訳(メタデータ) (2021-03-11T15:12:21Z) - Greedy Search Algorithms for Unsupervised Variable Selection: A
Comparative Study [3.4888132404740797]
本稿では,非監視変数選択に基づく次元還元について述べる。
本稿では,7つの非監視勾配変数選択アルゴリズムの臨界評価について述べる。
本稿では,FSCA(Forward selection component analysis)アルゴリズムで説明された分散の遅延実装を初めて導入し,評価する。
論文 参考訳(メタデータ) (2021-03-03T21:10:26Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Stable Prediction via Leveraging Seed Variable [73.9770220107874]
従来の機械学習手法は、非因果変数によって誘導されるトレーニングデータにおいて、微妙に刺激的な相関を利用して予測する。
本研究では, 条件付き独立性テストに基づくアルゴリズムを提案し, 種子変数を先行変数とする因果変数を分離し, 安定な予測に採用する。
我々のアルゴリズムは、安定した予測のための最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-06-09T06:56:31Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。