Fugu-MT 論文翻訳(概要): Variable Selection in Maximum Mean Discrepancy for Interpretable Distribution Comparison

論文の概要: Variable Selection in Maximum Mean Discrepancy for Interpretable Distribution Comparison

arxiv url: http://arxiv.org/abs/2311.01537v1
Date: Thu, 2 Nov 2023 18:38:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-06 16:17:04.131767
Title: Variable Selection in Maximum Mean Discrepancy for Interpretable Distribution Comparison
Title（参考訳）: 解釈可能な分布比較のための最大平均差の変数選択
Authors: Kensuke Mitsuzawa, Motonobu Kanagawa, Stefano Bortoli, Margherita Grossi and Paolo Papotti
Abstract要約: 2サンプルテストは、同じ分布から2つのデータセットが生成されるかどうかを決定する。本稿では,2サンプルテストにおける変数選択について検討し,2つの分布の相違の原因となる変数を同定する。
参考スコア（独自算出の注目度）: 9.12501922682336
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Two-sample testing decides whether two datasets are generated from the same distribution. This paper studies variable selection for two-sample testing, the task being to identify the variables (or dimensions) responsible for the discrepancies between the two distributions. This task is relevant to many problems of pattern analysis and machine learning, such as dataset shift adaptation, causal inference and model validation. Our approach is based on a two-sample test based on the Maximum Mean Discrepancy (MMD). We optimise the Automatic Relevance Detection (ARD) weights defined for individual variables to maximise the power of the MMD-based test. For this optimisation, we introduce sparse regularisation and propose two methods for dealing with the issue of selecting an appropriate regularisation parameter. One method determines the regularisation parameter in a data-driven way, and the other aggregates the results of different regularisation parameters. We confirm the validity of the proposed methods by systematic comparisons with baseline methods, and demonstrate their usefulness in exploratory analysis of high-dimensional traffic simulation data. Preliminary theoretical analyses are also provided, including a rigorous definition of variable selection for two-sample testing.
Abstract（参考訳）: 2サンプルテストは、2つのデータセットが同じ分布から生成されるかどうかを決定する。本稿では,2サンプルテストにおける変数選択について検討し,2つの分布の相違の原因となる変数(あるいは次元)を同定する。このタスクは、データセットシフト適応、因果推論、モデル検証など、パターン分析と機械学習の多くの問題に関係している。提案手法は,最大平均偏差(mmd)に基づく2サンプルテストに基づいている。個々の変数に対して定義される自動相関検出(ard)重みを最適化し、mmdベースのテストのパワーを最大化する。この最適化のために、スパース正規化を導入し、適切な正規化パラメータを選択するための2つの方法を提案する。 1つのメソッドはデータ駆動方式で正規化パラメータを決定し、もう1つは異なる正規化パラメータの結果を集約する。提案手法をベースライン法と体系的に比較して妥当性を確認し,高次元トラヒックシミュレーションデータの探索的解析における有用性を示す。 2つのサンプルテストのための変数選択の厳密な定義を含む予備的な理論解析も提供されている。

関連論文リスト

On the Interconnections of Calibration, Quantification, and Classifier Accuracy Prediction under Dataset Shift [58.91436551466064]
本稿では,データセットシフト条件下でのキャリブレーションと定量化の3つの基本問題間の相互接続について検討する。これらのタスクのいずれか1つに対するオラクルへのアクセスは、他の2つのタスクの解決を可能にすることを示す。本稿では,他の分野から借用した高度に確立された手法の直接適応に基づく各問題に対する新しい手法を提案する。
論文参考訳（メタデータ） (2025-05-16T15:42:55Z)
GeneralizeFormer: Layer-Adaptive Model Generation across Test-Time Distribution Shifts [58.95913531746308]
テスト時間領域の一般化の問題は、モデルが複数のソースドメインで訓練され、トレーニング中に見たことのないターゲットドメインで調整される場合である。 textitGeneralizeFormer と呼ばれる軽量メタ学習変換器を用いて,推論中に複数の層パラメータを生成することを提案する。
論文参考訳（メタデータ） (2025-02-15T10:10:49Z)
An Iterative Bayesian Approach for System Identification based on Linear Gaussian Models [86.05414211113627]
システム識別の問題に取り組み、入力を選択し、実際のシステムから対応する出力を観測し、データに最も合うようにモデルのパラメータを最適化する。本稿では,任意のシステムやパラメトリックモデルと互換性のある,フレキシブルで計算可能な手法を提案する。
論文参考訳（メタデータ） (2025-01-28T01:57:51Z)
Unified Convergence Analysis for Score-Based Diffusion Models with Deterministic Samplers [49.1574468325115]
決定論的サンプリングのための統合収束分析フレームワークを提案する。我々のフレームワークは$tilde O(d2/epsilon)$の反復複雑性を実現する。また,Denoising Implicit Diffusion Models (DDIM) タイプのサンプルについて詳細な分析を行った。
論文参考訳（メタデータ） (2024-10-18T07:37:36Z)
Generative vs. Discriminative modeling under the lens of uncertainty quantification [0.929965561686354]
本稿では,生成的アプローチと識別的アプローチの比較分析を行った。両手法が,不確実性を考慮した推論において,様々な情報源からの情報を活用する能力を比較する。本稿では,両手法の教師あり学習と,検討されたモデリング手法と互換性のあるセミ教師あり学習を実現するための一般的なサンプリング手法を提案する。
論文参考訳（メタデータ） (2024-06-13T14:32:43Z)
Winning Prize Comes from Losing Tickets: Improve Invariant Learning by Exploring Variant Parameters for Out-of-Distribution Generalization [76.27711056914168]
Out-of-Distribution (OOD) 一般化は、分散固有の特徴に適合することなく、様々な環境によく適応する堅牢なモデルを学ぶことを目的としている。 LTH(Lottery Ticket hypothesis)に基づく最近の研究は、学習目標を最小化し、タスクに重要なパラメータのいくつかを見つけることでこの問題に対処している。 Invariant Learning (EVIL) における変数探索手法を提案する。
論文参考訳（メタデータ） (2023-10-25T06:10:57Z)
Variable Selection for Kernel Two-Sample Tests [10.768155884359777]
カーネルの最大平均誤差(MMD)に基づくフレームワークを提案する。我々は混合整数型プログラミングの定式化を提案し、性能保証付き精度および近似アルゴリズムを開発した。合成および実データを用いた実験結果から,本手法の優れた性能が示された。
論文参考訳（メタデータ） (2023-02-15T00:39:56Z)
Spectral Regularized Kernel Two-Sample Tests [7.915420897195129]
MMD (maximum mean discrepancy) two-sample test to be optimal to the terms of the separation boundary in the Hellinger distance。スペクトル正則化に基づくMDD試験の修正を提案し,MMD試験よりも分離境界が小さく,最小限の試験が最適であることを証明した。その結果,テストしきい値がエレガントに選択されるテストの置換変種が,サンプルの置換によって決定されることがわかった。
論文参考訳（メタデータ） (2022-12-19T00:42:21Z)
Two-Stage Robust and Sparse Distributed Statistical Inference for Large-Scale Data [18.34490939288318]
本稿では,高次元データやオフレーヤによって汚染される可能性のある大規模データを含む設定において,統計的推論を行うという課題に対処する。空間性を促進することによって高次元モデルに対処する2段階の分散および頑健な統計的推論手法を提案する。
論文参考訳（メタデータ） (2022-08-17T11:17:47Z)
A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文参考訳（メタデータ） (2022-02-08T19:18:49Z)
A Statistical Analysis of Summarization Evaluation Metrics using Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文参考訳（メタデータ） (2021-03-31T18:28:14Z)
Greedy Search Algorithms for Unsupervised Variable Selection: A Comparative Study [3.4888132404740797]
本稿では,非監視変数選択に基づく次元還元について述べる。本稿では,7つの非監視勾配変数選択アルゴリズムの臨界評価について述べる。本稿では,FSCA(Forward selection component analysis)アルゴリズムで説明された分散の遅延実装を初めて導入し,評価する。
論文参考訳（メタデータ） (2021-03-03T21:10:26Z)
Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文参考訳（メタデータ） (2020-06-15T10:08:39Z)
Asymptotic Analysis of an Ensemble of Randomly Projected Linear Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文参考訳（メタデータ） (2020-04-17T12:47:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。