論文の概要: Variable Selection in Maximum Mean Discrepancy for Interpretable Distribution Comparison
- arxiv url: http://arxiv.org/abs/2311.01537v2
- Date: Tue, 04 Nov 2025 20:01:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.011435
- Title: Variable Selection in Maximum Mean Discrepancy for Interpretable Distribution Comparison
- Title(参考訳): 解釈可能な分布比較のための最大平均差の変数選択
- Authors: Kensuke Mitsuzawa, Motonobu Kanagawa, Stefano Bortoli, Margherita Grossi, Paolo Papotti,
- Abstract要約: 2サンプル変数選択は、2組のデータベクトルの分布を区別する変数を特定する。
本稿では,変数の識別集合に関する数学的概念を紹介する。
本稿では,変数に重みを割り当て,それらを最適化する2サンプル変数選択法を提案する。
- 参考スコア(独自算出の注目度): 9.73988606052838
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We study two-sample variable selection: identifying variables that discriminate between the distributions of two sets of data vectors. Such variables help scientists understand the mechanisms behind dataset discrepancies. Although domain-specific methods exist (e.g., in medical imaging, genetics, and computational social science), a general framework remains underdeveloped. We make two separate contributions. (i) We introduce a mathematical notion of the discriminating set of variables: the largest subset containing no variables whose marginals are identical across the two distributions and independent of the remaining variables. We prove this set is uniquely defined and establish further properties, making it a suitable ground truth for theory and evaluation. (ii) We propose two methods for two-sample variable selection that assign weights to variables and optimise them to maximise the power of a kernel two-sample test while enforcing sparsity to downweight redundant variables. To select the regularisation parameter - unknown in practice, as it controls the number of selected variables - we develop two data-driven procedures to balance recall and precision. Synthetic experiments show improved performance over baselines, and we illustrate the approach on two applications using datasets from water-pipe and traffic networks.
- Abstract(参考訳): 本研究では,2組のデータベクトルの分布を区別する変数を同定する2サンプル変数選択法について検討する。
このような変数は、データセットの不一致の背後にあるメカニズムを理解するのに役立つ。
ドメイン固有の手法(医療画像、遺伝学、計算社会科学など)は存在するが、一般的な枠組みはまだ未発達である。
私たちは2つのコントリビューションを行います。
i) 2つの分布の辺が同一であり、残りの変数とは独立な変数を含む最大部分集合。
我々は、この集合が一意に定義され、さらなる性質を確立することを証明し、理論と評価に適した基礎的真理となる。
2) 2サンプル変数選択のための2つの手法を提案し, 重み付けを変数に割り当て, カーネルの2サンプルテストのパワーを最大化するために最適化する。
正規化パラメータ – 実際に未知の – を選択するために,リコールと精度のバランスをとるために,データ駆動型の2つの手順を開発した。
合成実験により,ベースラインよりも性能が向上し,水管と交通ネットワークのデータセットを用いた2つのアプリケーションに対するアプローチが示された。
関連論文リスト
- On the Interconnections of Calibration, Quantification, and Classifier Accuracy Prediction under Dataset Shift [58.91436551466064]
本稿では,データセットシフト条件下でのキャリブレーションと定量化の3つの基本問題間の相互接続について検討する。
これらのタスクのいずれか1つに対するオラクルへのアクセスは、他の2つのタスクの解決を可能にすることを示す。
本稿では,他の分野から借用した高度に確立された手法の直接適応に基づく各問題に対する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-16T15:42:55Z) - GeneralizeFormer: Layer-Adaptive Model Generation across Test-Time Distribution Shifts [58.95913531746308]
テスト時間領域の一般化の問題は、モデルが複数のソースドメインで訓練され、トレーニング中に見たことのないターゲットドメインで調整される場合である。
textitGeneralizeFormer と呼ばれる軽量メタ学習変換器を用いて,推論中に複数の層パラメータを生成することを提案する。
論文 参考訳(メタデータ) (2025-02-15T10:10:49Z) - An Iterative Bayesian Approach for System Identification based on Linear Gaussian Models [86.05414211113627]
システム識別の問題に取り組み、入力を選択し、実際のシステムから対応する出力を観測し、データに最も合うようにモデルのパラメータを最適化する。
本稿では,任意のシステムやパラメトリックモデルと互換性のある,フレキシブルで計算可能な手法を提案する。
論文 参考訳(メタデータ) (2025-01-28T01:57:51Z) - Unified Convergence Analysis for Score-Based Diffusion Models with Deterministic Samplers [49.1574468325115]
決定論的サンプリングのための統合収束分析フレームワークを提案する。
我々のフレームワークは$tilde O(d2/epsilon)$の反復複雑性を実現する。
また,Denoising Implicit Diffusion Models (DDIM) タイプのサンプルについて詳細な分析を行った。
論文 参考訳(メタデータ) (2024-10-18T07:37:36Z) - Generative vs. Discriminative modeling under the lens of uncertainty quantification [0.929965561686354]
本稿では,生成的アプローチと識別的アプローチの比較分析を行った。
両手法が,不確実性を考慮した推論において,様々な情報源からの情報を活用する能力を比較する。
本稿では,両手法の教師あり学習と,検討されたモデリング手法と互換性のあるセミ教師あり学習を実現するための一般的なサンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:32:43Z) - Winning Prize Comes from Losing Tickets: Improve Invariant Learning by
Exploring Variant Parameters for Out-of-Distribution Generalization [76.27711056914168]
Out-of-Distribution (OOD) 一般化は、分散固有の特徴に適合することなく、様々な環境によく適応する堅牢なモデルを学ぶことを目的としている。
LTH(Lottery Ticket hypothesis)に基づく最近の研究は、学習目標を最小化し、タスクに重要なパラメータのいくつかを見つけることでこの問題に対処している。
Invariant Learning (EVIL) における変数探索手法を提案する。
論文 参考訳(メタデータ) (2023-10-25T06:10:57Z) - Variable Selection for Kernel Two-Sample Tests [10.768155884359777]
カーネルの最大平均誤差(MMD)に基づくフレームワークを提案する。
我々は混合整数型プログラミングの定式化を提案し、性能保証付き精度および近似アルゴリズムを開発した。
合成および実データを用いた実験結果から,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2023-02-15T00:39:56Z) - Spectral Regularized Kernel Two-Sample Tests [7.915420897195129]
MMD (maximum mean discrepancy) two-sample test to be optimal to the terms of the separation boundary in the Hellinger distance。
スペクトル正則化に基づくMDD試験の修正を提案し,MMD試験よりも分離境界が小さく,最小限の試験が最適であることを証明した。
その結果,テストしきい値がエレガントに選択されるテストの置換変種が,サンプルの置換によって決定されることがわかった。
論文 参考訳(メタデータ) (2022-12-19T00:42:21Z) - Two-Stage Robust and Sparse Distributed Statistical Inference for
Large-Scale Data [18.34490939288318]
本稿では,高次元データやオフレーヤによって汚染される可能性のある大規模データを含む設定において,統計的推論を行うという課題に対処する。
空間性を促進することによって高次元モデルに対処する2段階の分散および頑健な統計的推論手法を提案する。
論文 参考訳(メタデータ) (2022-08-17T11:17:47Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Greedy Search Algorithms for Unsupervised Variable Selection: A
Comparative Study [3.4888132404740797]
本稿では,非監視変数選択に基づく次元還元について述べる。
本稿では,7つの非監視勾配変数選択アルゴリズムの臨界評価について述べる。
本稿では,FSCA(Forward selection component analysis)アルゴリズムで説明された分散の遅延実装を初めて導入し,評価する。
論文 参考訳(メタデータ) (2021-03-03T21:10:26Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。