論文の概要: An optimal transport approach for selecting a representative subsample
with application in efficient kernel density estimation
- arxiv url: http://arxiv.org/abs/2206.01182v1
- Date: Tue, 31 May 2022 05:19:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 14:55:32.833946
- Title: An optimal transport approach for selecting a representative subsample
with application in efficient kernel density estimation
- Title(参考訳): 効率的なカーネル密度推定への応用による代表サブサンプル選択のための最適トランスポートアプローチ
- Authors: Jingyi Zhang, Cheng Meng, Jun Yu, Mengrui Zhang, Wenxuan Zhong and
Ping Ma
- Abstract要約: サブサンプリング手法は、観察されたサンプルのサロゲートとしてサブサンプルを選択することを目的としている。
既存のモデルフリーのサブサンプリングメソッドは通常、クラスタリング技術やカーネルのトリックに基づいて構築される。
最適な輸送手法を用いたモデルフリーサブサンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 21.632131776088084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Subsampling methods aim to select a subsample as a surrogate for the observed
sample. Such methods have been used pervasively in large-scale data analytics,
active learning, and privacy-preserving analysis in recent decades. Instead of
model-based methods, in this paper, we study model-free subsampling methods,
which aim to identify a subsample that is not confined by model assumptions.
Existing model-free subsampling methods are usually built upon clustering
techniques or kernel tricks. Most of these methods suffer from either a large
computational burden or a theoretical weakness. In particular, the theoretical
weakness is that the empirical distribution of the selected subsample may not
necessarily converge to the population distribution. Such computational and
theoretical limitations hinder the broad applicability of model-free
subsampling methods in practice. We propose a novel model-free subsampling
method by utilizing optimal transport techniques. Moreover, we develop an
efficient subsampling algorithm that is adaptive to the unknown probability
density function. Theoretically, we show the selected subsample can be used for
efficient density estimation by deriving the convergence rate for the proposed
subsample kernel density estimator. We also provide the optimal bandwidth for
the proposed estimator. Numerical studies on synthetic and real-world datasets
demonstrate the performance of the proposed method is superior.
- Abstract(参考訳): サブサンプリング手法は、観察されたサンプルのサロゲートとしてサブサンプルを選択することを目的としている。
このような手法は、大規模なデータ分析、アクティブラーニング、プライバシ保存分析に数十年にわたって広く使われてきた。
本稿では,モデルに基づく手法ではなく,モデル仮定に拘束されないサブサンプルを同定することを目的としたモデルフリーサブサンプリング手法について検討する。
既存のモデルフリーのサブサンプリングメソッドは通常、クラスタリング技術やカーネルのトリックに基づいて構築される。
これらの手法の多くは、大きな計算負担または理論的弱点に悩まされている。
特に、理論上の弱点は、選択されたサブサンプルの実験的分布が必ずしも人口分布に収束しないことである。
このような計算的および理論的制限は、実際にはモデルフリーなサブサンプリング法の適用性を妨げている。
最適な輸送手法を用いたモデルフリーサブサンプリング手法を提案する。
さらに,未知の確率密度関数に適応する効率的なサブサンプリングアルゴリズムを開発した。
理論上,提案するサブサンプル密度推定器の収束率を導出することにより,選択したサブサンプルを効率的な密度推定に利用できることを示す。
また,提案する推定器の最適帯域幅を提供する。
合成および実世界のデータセットに関する数値的研究は,提案手法の性能が優れていることを示す。
関連論文リスト
- Total Uncertainty Quantification in Inverse PDE Solutions Obtained with Reduced-Order Deep Learning Surrogate Models [50.90868087591973]
機械学習サロゲートモデルを用いて得られた逆PDE解の総不確かさを近似したベイズ近似法を提案する。
非線型拡散方程式に対する反復的アンサンブルスムーズおよび深層アンサンブル法との比較により,提案手法を検証した。
論文 参考訳(メタデータ) (2024-08-20T19:06:02Z) - Dynamical Measure Transport and Neural PDE Solvers for Sampling [77.38204731939273]
本研究では, 対象物へのトラクタブル密度関数の移動として, 確率密度からサンプリングする作業に取り組む。
物理インフォームドニューラルネットワーク(PINN)を用いて各偏微分方程式(PDE)の解を近似する。
PINNはシミュレーションと離散化のない最適化を可能にし、非常に効率的に訓練することができる。
論文 参考訳(メタデータ) (2024-07-10T17:39:50Z) - PQMass: Probabilistic Assessment of the Quality of Generative Models
using Probability Mass Estimation [8.527898482146103]
生成モデルの品質を評価するための包括的サンプルベース手法を提案する。
提案手法により,同じ分布から2組のサンプルが引き出される確率を推定できる。
論文 参考訳(メタデータ) (2024-02-06T19:39:26Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Sobolev Space Regularised Pre Density Models [51.558848491038916]
本研究では,ソボレフ法則の正則化に基づく非パラメトリック密度推定法を提案する。
この方法は統計的に一貫したものであり、帰納的検証モデルを明確かつ一貫したものにしている。
論文 参考訳(メタデータ) (2023-07-25T18:47:53Z) - Plug-and-Play split Gibbs sampler: embedding deep generative priors in
Bayesian inference [12.91637880428221]
本稿では, 後方分布から効率的にサンプリングするために, 可変分割を利用したプラグアンドプレイサンプリングアルゴリズムを提案する。
後方サンプリングの課題を2つの単純なサンプリング問題に分割する。
その性能は最近の最先端の最適化とサンプリング手法と比較される。
論文 参考訳(メタデータ) (2023-04-21T17:17:51Z) - Model-free Subsampling Method Based on Uniform Designs [5.661822729320697]
我々は,既存の一様設計に基づく低GEFDデータ駆動サブサンプリング手法を開発した。
我々の手法は様々なモデル仕様の下で頑健であり、他の一般的なサブサンプリング手法は性能が低い。
論文 参考訳(メタデータ) (2022-09-08T07:47:56Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - Maximum sampled conditional likelihood for informative subsampling [4.708378681950648]
サブサンプリングは、計算資源が限られているときに大量のデータセットから情報を抽出する、計算学的に効果的な手法である。
そこで本研究では,サンプルデータに基づく最大条件付き確率推定器(MSCLE)を提案する。
論文 参考訳(メタデータ) (2020-11-11T16:01:17Z) - Detangling robustness in high dimensions: composite versus
model-averaged estimation [11.658462692891355]
ロバスト法は、実際にはユビキタスであるが、正規化推定や高次元の文脈ではまだ完全には理解されていない。
本稿では,これらの設定におけるロバスト性をさらに研究し,予測に焦点を当てたツールボックスを提供する。
論文 参考訳(メタデータ) (2020-06-12T20:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。