Fugu-MT 論文翻訳(概要): PCA-Guided Quantile Sampling: Preserving Data Structure in Large-Scale Subsampling

論文の概要: PCA-Guided Quantile Sampling: Preserving Data Structure in Large-Scale Subsampling

arxiv url: http://arxiv.org/abs/2506.18249v1
Date: Mon, 23 Jun 2025 02:37:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.826511
Title: PCA-Guided Quantile Sampling: Preserving Data Structure in Large-Scale Subsampling
Title（参考訳）: PCA誘導量子サンプリング:大規模サブサンプリングにおけるデータ構造保存
Authors: Foo Hui-Mean, Yuan-chin Ivan Chang,
Abstract要約: 主成分分析ガイド量子サンプリング(PCA QS)を導入する。 PCA QSは、大規模データセットの統計的構造と幾何学的構造の両方を保存するために設計された新しいサンプリングフレームワークである。我々はPCA QSが単純な乱数サンプリングより一貫して優れており、構造が良く、下流モデルの性能が向上していることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Principal Component Analysis guided Quantile Sampling (PCA QS), a novel sampling framework designed to preserve both the statistical and geometric structure of large scale datasets. Unlike conventional PCA, which reduces dimensionality at the cost of interpretability, PCA QS retains the original feature space while using leading principal components solely to guide a quantile based stratification scheme. This principled design ensures that sampling remains representative without distorting the underlying data semantics. We establish rigorous theoretical guarantees, deriving convergence rates for empirical quantiles, Kullback Leibler divergence, and Wasserstein distance, thus quantifying the distributional fidelity of PCA QS samples. Practical guidelines for selecting the number of principal components, quantile bins, and sampling rates are provided based on these results. Extensive empirical studies on both synthetic and real-world datasets show that PCA QS consistently outperforms simple random sampling, yielding better structure preservation and improved downstream model performance. Together, these contributions position PCA QS as a scalable, interpretable, and theoretically grounded solution for efficient data summarization in modern machine learning workflows.
Abstract（参考訳）: 大規模データセットの統計的構造と幾何学的構造の両方を保存するために設計された新しいサンプリングフレームワークであるPCA QS(Principal Component Analysis Guided Quantile Smpling)を紹介する。解釈可能性のコストで次元を減少させる従来のPCAとは異なり、PCA QSは、主成分のみを用いて量子的階層化スキームを導出しながら、元の特徴空間を保持する。この原則的な設計は、サンプリングが基礎となるデータセマンティクスを歪めずに代表的であることを保証します。我々は、経験的量子化、クルバック・リーブラーの発散、ワッサーシュタイン距離の収束率を導出し、PCA QSサンプルの分布忠実度を定量化する厳密な理論的保証を確立する。これらの結果に基づいて、主成分数、定量ビン数、サンプリングレートを選択するための実践的ガイドラインが提供される。合成と実世界の両方のデータセットに関する大規模な実証研究により、PCA QSは単純なランダムサンプリングよりも一貫して優れており、構造保存性が向上し、下流モデルの性能が向上していることが示された。これらのコントリビューションは、PCA QSを、現代的な機械学習ワークフローにおける効率的なデータ要約のためのスケーラブルで解釈可能、理論的に根拠付けられたソリューションとして位置付けている。

関連論文リスト

RS-Prune: Training-Free Data Pruning at High Ratios for Efficient Remote Sensing Diffusion Foundation Models [14.093802378976315]
拡散型リモートセンシング(RS)生成基盤モデルは、多量のグローバルな代表データに依存している。本稿では,高プルーニング率で高品質なサブセットを迅速に選択する,トレーニングフリーな2段階データプルーニング手法を提案する。実験の結果, トレーニングデータの85%を刈り取った後も, コンバージェンスと生成品質が著しく向上することがわかった。
論文参考訳（メタデータ） (2025-12-29T06:44:06Z)
PDAC: Efficient Coreset Selection for Continual Learning via Probability Density Awareness [19.191960069245354]
リハーサルベースの連続学習(CL)は、知識保持のためのリプレイサンプルを保存するために、限られたメモリバッファを保持する。現在のリハーサルベースのCLメソッドは、通常、代表サブセットを選択してメモリバッファを構成する。本稿では,各試料の接合密度を推定する確率密度認識コアセット(PDAC)法を提案する。
論文参考訳（メタデータ） (2025-11-12T17:00:21Z)
Improving Bayesian inference in PTA data analysis: importance nested sampling with Normalizing Flows [0.0]
本稿では, パルスタイミングアレイデータに対するベイズ推定について, 効率, 堅牢性, 速度の向上に焦点をあてて詳細に検討する。我々はi-nessaiサンプルを統合し、実際のシミュレーションデータセットのパフォーマンスをベンチマークする。その結果,PTA解析を加速し,推論の品質を保ちながら,フローベースネストサンプリングの可能性を強調した。
論文参考訳（メタデータ） (2025-11-03T17:29:46Z)
Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。 Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文参考訳（メタデータ） (2025-09-28T13:27:38Z)
Learning Discrete Bayesian Networks with Hierarchical Dirichlet Shrinkage [52.914168158222765]
我々はDBNを学習するための包括的なベイズ的フレームワークについて詳述する。我々は、並列ランゲヴィン提案を用いてマルコフ連鎖モンテカルロ(MCMC)アルゴリズムを新たに提案し、正確な後続サンプルを生成する。原発性乳癌検体から予後ネットワーク構造を明らかにするために本手法を適用した。
論文参考訳（メタデータ） (2025-09-16T17:24:35Z)
EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving [64.15371139980802]
大規模言語モデル(LLM)は、最近、自動定理証明(ATP)の分野を進歩させた。 ATPモデルに対する異なるテスト時間スケーリング戦略は、推論にかなりの計算オーバーヘッドをもたらすことを示す。本稿では,統一EconRLパイプラインに統合可能な2つの補完手法を提案する。
論文参考訳（メタデータ） (2025-09-16T03:00:13Z)
QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文参考訳（メタデータ） (2025-08-06T14:35:59Z)
Adaptive Dataset Quantization [2.0105434963031463]
適応データセット量子化(ADQ)という,データセット圧縮のための汎用フレームワークを導入する。本稿では,生成したビンの代表性スコア,多様性スコア,重要度スコアの評価を通じて,新しい適応型サンプリング戦略を提案する。提案手法は, 異なるアーキテクチャにまたがる優れた一般化能力を示すだけでなく, 各種データセットにおいてDQを平均3%越えて, 最先端の結果が得られる。
論文参考訳（メタデータ） (2024-12-22T07:08:29Z)
Unified Convergence Analysis for Score-Based Diffusion Models with Deterministic Samplers [49.1574468325115]
決定論的サンプリングのための統合収束分析フレームワークを提案する。我々のフレームワークは$tilde O(d2/epsilon)$の反復複雑性を実現する。また,Denoising Implicit Diffusion Models (DDIM) タイプのサンプルについて詳細な分析を行った。
論文参考訳（メタデータ） (2024-10-18T07:37:36Z)
Bayesian tomography using polynomial chaos expansion and deep generative networks [0.0]
可変オートエンコーダ(VAE)の優れた再構成性能とPCA-PCEサロゲートモデリングの精度を組み合わせた戦略を提案する。 MCMCプロセス内では、VOEのパラメトリゼーションが事前の探査とサンプル提案に利用される。
論文参考訳（メタデータ） (2023-07-09T16:44:37Z)
Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文参考訳（メタデータ） (2023-04-04T17:54:32Z)
Importance sampling for stochastic quantum simulations [68.8204255655161]
我々は、係数に応じてハミルトン式からサンプリングしてランダムな積公式を構築するqDriftプロトコルを導入する。サンプリング段階における個別のシミュレーションコストを考慮し、同じ精度でシミュレーションコストを削減可能であることを示す。格子核効果場理論を用いて数値シミュレーションを行った結果, 実験結果が得られた。
論文参考訳（メタデータ） (2022-12-12T15:06:32Z)
ClusterQ: Semantic Feature Distribution Alignment for Data-Free Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文参考訳（メタデータ） (2022-04-30T06:58:56Z)
CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文参考訳（メタデータ） (2022-03-03T05:58:49Z)
Self-paced Principal Component Analysis [17.333976289539457]
本稿では,SPCA (Self-paced PCA) と呼ばれる新しい手法を提案する。各サンプルの複雑さは、単純からより複雑なサンプルをトレーニングに統合するために、各イテレーションの開始時に計算されます。
論文参考訳（メタデータ） (2021-06-25T20:50:45Z)
Empirical Bayes PCA in high dimensions [11.806200054814772]
主成分分析は高次元雑音の異常な現象を示すことが知られている。主成分の結合分布に対する構造的事前を推定することにより,このノイズを低減できる経験的ベイズPCA法を提案する。
論文参考訳（メタデータ） (2020-12-21T20:43:44Z)
Probabilistic Contrastive Principal Component Analysis [0.5286651840245514]
比較主成分分析(CPCA)のモデルに基づく代替案を提案する。 CPCAに対するPCPCAのアドバンテージは、解釈性の向上、不確実性定量化、原理推論などである。遺伝子発現、タンパク質発現、画像のデータセットを用いた一連のシミュレーションとケースコントロール実験によりPCPCAの性能を実証します。
論文参考訳（メタデータ） (2020-12-14T22:21:50Z)
Unsupervised learning of disentangled representations in deep restricted kernel machines with orthogonality constraints [15.296955630621566]
Constr-DRKMは、非教師なしデータ表現の学習のためのディープカーネル手法である。本研究では,不整合特徴学習における提案手法の有効性を定量的に評価する。
論文参考訳（メタデータ） (2020-11-25T11:40:10Z)
Repulsive Mixture Models of Exponential Family PCA for Clustering [127.90219303669006]
指数関数型家族主成分分析(EPCA)の混合拡張は、従来のEPCAよりもデータ分布に関する構造情報を符号化するように設計された。従来のEPCAの混合は、モデルの冗長性、すなわち混合成分間の重なりが問題であり、データクラスタリングの曖昧さを引き起こす可能性がある。本稿では, 混合成分間での反発性増感前処理を導入し, ベイズ式に分散EPCA混合(DEPCAM)モデルを開発した。
論文参考訳（メタデータ） (2020-04-07T04:07:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。