論文の概要: PCA-Guided Quantile Sampling: Preserving Data Structure in Large-Scale Subsampling
- arxiv url: http://arxiv.org/abs/2506.18249v1
- Date: Mon, 23 Jun 2025 02:37:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.826511
- Title: PCA-Guided Quantile Sampling: Preserving Data Structure in Large-Scale Subsampling
- Title(参考訳): PCA誘導量子サンプリング:大規模サブサンプリングにおけるデータ構造保存
- Authors: Foo Hui-Mean, Yuan-chin Ivan Chang,
- Abstract要約: 主成分分析ガイド量子サンプリング(PCA QS)を導入する。
PCA QSは、大規模データセットの統計的構造と幾何学的構造の両方を保存するために設計された新しいサンプリングフレームワークである。
我々はPCA QSが単純な乱数サンプリングより一貫して優れており、構造が良く、下流モデルの性能が向上していることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Principal Component Analysis guided Quantile Sampling (PCA QS), a novel sampling framework designed to preserve both the statistical and geometric structure of large scale datasets. Unlike conventional PCA, which reduces dimensionality at the cost of interpretability, PCA QS retains the original feature space while using leading principal components solely to guide a quantile based stratification scheme. This principled design ensures that sampling remains representative without distorting the underlying data semantics. We establish rigorous theoretical guarantees, deriving convergence rates for empirical quantiles, Kullback Leibler divergence, and Wasserstein distance, thus quantifying the distributional fidelity of PCA QS samples. Practical guidelines for selecting the number of principal components, quantile bins, and sampling rates are provided based on these results. Extensive empirical studies on both synthetic and real-world datasets show that PCA QS consistently outperforms simple random sampling, yielding better structure preservation and improved downstream model performance. Together, these contributions position PCA QS as a scalable, interpretable, and theoretically grounded solution for efficient data summarization in modern machine learning workflows.
- Abstract(参考訳): 大規模データセットの統計的構造と幾何学的構造の両方を保存するために設計された新しいサンプリングフレームワークであるPCA QS(Principal Component Analysis Guided Quantile Smpling)を紹介する。
解釈可能性のコストで次元を減少させる従来のPCAとは異なり、PCA QSは、主成分のみを用いて量子的階層化スキームを導出しながら、元の特徴空間を保持する。
この原則的な設計は、サンプリングが基礎となるデータセマンティクスを歪めずに代表的であることを保証します。
我々は、経験的量子化、クルバック・リーブラーの発散、ワッサーシュタイン距離の収束率を導出し、PCA QSサンプルの分布忠実度を定量化する厳密な理論的保証を確立する。
これらの結果に基づいて、主成分数、定量ビン数、サンプリングレートを選択するための実践的ガイドラインが提供される。
合成と実世界の両方のデータセットに関する大規模な実証研究により、PCA QSは単純なランダムサンプリングよりも一貫して優れており、構造保存性が向上し、下流モデルの性能が向上していることが示された。
これらのコントリビューションは、PCA QSを、現代的な機械学習ワークフローにおける効率的なデータ要約のためのスケーラブルで解釈可能、理論的に根拠付けられたソリューションとして位置付けている。
関連論文リスト
- Unified Convergence Analysis for Score-Based Diffusion Models with Deterministic Samplers [49.1574468325115]
決定論的サンプリングのための統合収束分析フレームワークを提案する。
我々のフレームワークは$tilde O(d2/epsilon)$の反復複雑性を実現する。
また,Denoising Implicit Diffusion Models (DDIM) タイプのサンプルについて詳細な分析を行った。
論文 参考訳(メタデータ) (2024-10-18T07:37:36Z) - Bayesian tomography using polynomial chaos expansion and deep generative
networks [0.0]
可変オートエンコーダ(VAE)の優れた再構成性能とPCA-PCEサロゲートモデリングの精度を組み合わせた戦略を提案する。
MCMCプロセス内では、VOEのパラメトリゼーションが事前の探査とサンプル提案に利用される。
論文 参考訳(メタデータ) (2023-07-09T16:44:37Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Importance sampling for stochastic quantum simulations [68.8204255655161]
我々は、係数に応じてハミルトン式からサンプリングしてランダムな積公式を構築するqDriftプロトコルを導入する。
サンプリング段階における個別のシミュレーションコストを考慮し、同じ精度でシミュレーションコストを削減可能であることを示す。
格子核効果場理論を用いて数値シミュレーションを行った結果, 実験結果が得られた。
論文 参考訳(メタデータ) (2022-12-12T15:06:32Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Self-paced Principal Component Analysis [17.333976289539457]
本稿では,SPCA (Self-paced PCA) と呼ばれる新しい手法を提案する。
各サンプルの複雑さは、単純からより複雑なサンプルをトレーニングに統合するために、各イテレーションの開始時に計算されます。
論文 参考訳(メタデータ) (2021-06-25T20:50:45Z) - Empirical Bayes PCA in high dimensions [11.806200054814772]
主成分分析は高次元雑音の異常な現象を示すことが知られている。
主成分の結合分布に対する構造的事前を推定することにより,このノイズを低減できる経験的ベイズPCA法を提案する。
論文 参考訳(メタデータ) (2020-12-21T20:43:44Z) - Repulsive Mixture Models of Exponential Family PCA for Clustering [127.90219303669006]
指数関数型家族主成分分析(EPCA)の混合拡張は、従来のEPCAよりもデータ分布に関する構造情報を符号化するように設計された。
従来のEPCAの混合は、モデルの冗長性、すなわち混合成分間の重なりが問題であり、データクラスタリングの曖昧さを引き起こす可能性がある。
本稿では, 混合成分間での反発性増感前処理を導入し, ベイズ式に分散EPCA混合(DEPCAM)モデルを開発した。
論文 参考訳(メタデータ) (2020-04-07T04:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。