論文の概要: Compressing Large Sample Data for Discriminant Analysis
- arxiv url: http://arxiv.org/abs/2005.03858v1
- Date: Fri, 8 May 2020 05:09:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 11:48:31.009753
- Title: Compressing Large Sample Data for Discriminant Analysis
- Title(参考訳): 判別分析のための大規模サンプルデータ圧縮
- Authors: Alexander F. Lapanowski, Irina Gaynanova
- Abstract要約: 判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。
線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
- 参考スコア(独自算出の注目度): 78.12073412066698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-sample data became prevalent as data acquisition became cheaper and
easier. While a large sample size has theoretical advantages for many
statistical methods, it presents computational challenges. Sketching, or
compression, is a well-studied approach to address these issues in regression
settings, but considerably less is known about its performance in
classification settings. Here we consider the computational issues due to large
sample size within the discriminant analysis framework. We propose a new
compression approach for reducing the number of training samples for linear and
quadratic discriminant analysis, in contrast to existing compression methods
which focus on reducing the number of features. We support our approach with a
theoretical bound on the misclassification error rate compared to the Bayes
classifier. Empirical studies confirm the significant computational gains of
the proposed method and its superior predictive ability compared to random
sub-sampling.
- Abstract(参考訳): データ取得が安価で容易になったため、大規模なデータが普及した。
大きなサンプルサイズは、多くの統計的手法に理論的に有利であるが、計算上の課題がある。
スケッチ(または圧縮)は、回帰設定でこれらの問題に対処するためのよく研究されたアプローチであるが、分類設定におけるその性能についてはあまり知られていない。
ここでは、判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。
特徴量削減に着目した既存の圧縮手法とは対照的に,線形・二次判別分析のためのトレーニングサンプル数を削減できる新しい圧縮手法を提案する。
我々はベイズ分類器と比較して誤分類誤り率に理論的拘束力を与える。
実験により,提案手法の有意な計算効率と,ランダムサブサンプリングよりも優れた予測能力が確認できた。
関連論文リスト
- A replica analysis of under-bagging [3.1274367448459253]
Under-bagging (UB) は、不均衡なデータに基づいて分類器を訓練するための一般的なアンサンブル学習手法である。
アンダーサンプリングによる試料径の減少による分散の増大を抑えるためにバッジを用いることは自然なアプローチである。
近年、一般化線形モデルでは、クラス不均衡構造を考慮しない単純バッグングとリッジ正則化が同じ結果をもたらすことが指摘されている。
論文 参考訳(メタデータ) (2024-04-15T13:31:31Z) - Optimal Multi-Distribution Learning [88.3008613028333]
マルチディストリビューション学習は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目指している。
本稿では, (d+k)/varepsilon2の順に, サンプルの複雑さを伴って, ヴァレプシロン最適ランダム化仮説を導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-08T16:06:29Z) - Collapsed Inference for Bayesian Deep Learning [36.1725075097107]
本稿では,崩壊サンプルを用いたベイズモデル平均化を行う新しい崩壊予測手法を提案する。
崩壊したサンプルは、近似後部から引き出された数え切れないほど多くのモデルを表す。
提案手法は, スケーラビリティと精度のバランスをとる。
論文 参考訳(メタデータ) (2023-06-16T08:34:42Z) - Vector-Valued Least-Squares Regression under Output Regularity
Assumptions [73.99064151691597]
最小二乗回帰問題を無限次元出力で解くために,還元ランク法を提案し,解析する。
提案手法の学習バウンダリを導出し、フルランク手法と比較して統計的性能の設定を改善する研究を行う。
論文 参考訳(メタデータ) (2022-11-16T15:07:00Z) - Imbalanced Classification via a Tabular Translation GAN [4.864819846886142]
本稿では,多数のサンプルを対応する合成マイノリティ標本にマッピングするために,新たな正規化損失を用いたジェネレーティブ・アドバイサル・ネットワークに基づくモデルを提案する。
提案手法は, 再加重法やオーバーサンプリング法と比較して, 平均精度を向上することを示す。
論文 参考訳(メタデータ) (2022-04-19T06:02:53Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - A Compressive Classification Framework for High-Dimensional Data [12.284934135116515]
本稿では,データ次元がサンプルサイズよりもかなり高い設定のための圧縮分類フレームワークを提案する。
提案手法は線形判別分析に基づく正規化判別分析(CRDA)と呼ばれる。
識別規則における強しきい値化を促進するジョイントスパーシティを用いることで、重要な特徴を選択できる。
論文 参考訳(メタデータ) (2020-05-09T06:55:00Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z) - Minority Class Oversampling for Tabular Data with Deep Generative Models [4.976007156860967]
オーバーサンプリングによる非バランスな分類タスクの性能向上を図るために, 深層生成モデルを用いて現実的なサンプルを提供する能力について検討した。
実験の結果,サンプリング手法は品質に影響を与えないが,実行環境は様々であることがわかった。
また、性能指標の点でも改善が重要であるが、絶対的な点では小さな点がしばしば見られる。
論文 参考訳(メタデータ) (2020-05-07T21:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。