論文の概要: Reliable Covariance Estimation
- arxiv url: http://arxiv.org/abs/2006.03311v3
- Date: Fri, 3 Jul 2020 16:06:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 04:37:45.321118
- Title: Reliable Covariance Estimation
- Title(参考訳): 信頼性のある共分散推定
- Authors: Ilya Soloveychik
- Abstract要約: タイラーの推定器は楕円族内における分布自由であり、計算が容易であることで際立っている。
散乱行列が不明な場合, 楕円性に対する全ての代替品に対して一貫した, 容易に適用可能な適合性試験を開発する。
- 参考スコア(独自算出の注目度): 2.030567625639093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Covariance or scatter matrix estimation is ubiquitous in most modern
statistical and machine learning applications. The task becomes especially
challenging since most real-world datasets are essentially non-Gaussian. The
data is often contaminated by outliers and/or has heavy-tailed distribution
causing the sample covariance to behave very poorly and calling for robust
estimation methodology. The natural framework for the robust scatter matrix
estimation is based on elliptical populations. Here, Tyler's estimator stands
out by being distribution-free within the elliptical family and easy to
compute. The existing works thoroughly study the performance of Tyler's
estimator assuming ellipticity but without providing any tools to verify this
assumption when the covariance is unknown in advance. We address the following
open question: Given the sampled data and having no prior on the data
generating process, how to assess the quality of the scatter matrix estimator?
In this work we show that this question can be reformulated as an asymptotic
uniformity test for certain sequences of exchangeable vectors on the unit
sphere. We develop a consistent and easily applicable goodness-of-fit test
against all alternatives to ellipticity when the scatter matrix is unknown. The
findings are supported by numerical simulations demonstrating the power of the
suggest technique.
- Abstract(参考訳): 共分散や散乱行列推定は、現代の統計学や機械学習のアプリケーションで広く使われている。
ほとんどの実世界のデータセットは本質的にガウスではないため、このタスクは特に難しい。
データは異常値によって汚染されることが多いし、サンプルの共分散が非常に振る舞うことがあり、ロバストな推定法が求められている。
頑健な散乱行列推定の自然な枠組みは楕円型集団に基づいている。
ここでは、タイラーの推定器は楕円族内における分布自由であり、容易に計算できることで際立っている。
既存の研究は、楕円性を仮定したタイラーの推定器の性能を徹底的に研究しているが、共分散が事前に不明な場合にこの仮定を検証するツールを提供していない。
サンプルデータとデータ生成プロセスに先行していないことを考慮し、散乱行列推定器の品質を評価するにはどうすればよいか?
本研究では、単位球面上の交換可能ベクトルのある種の列に対する漸近的一様性テストとして、この問題を再構築できることを示す。
散乱行列が不明な場合, 楕円性に対する全ての代替品に対して一貫した, 容易に適用可能な適合性試験を開発する。
これらの結果は,提案手法のパワーを示す数値シミュレーションによって裏付けられる。
関連論文リスト
- Revisiting the Dataset Bias Problem from a Statistical Perspective [72.94990819287551]
統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:58:06Z) - Precise Error Rates for Computationally Efficient Testing [75.63895690909241]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。
線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文 参考訳(メタデータ) (2023-11-01T04:41:16Z) - Toward Generalizable Machine Learning Models in Speech, Language, and
Hearing Sciences: Estimating Sample Size and Reducing Overfitting [1.8416014644193064]
本研究ではモンテカルロシミュレーションを用いて,採用したクロスバリデーション法と特徴の離散パワーの相互作用を定量化する。
単一ホールドアウトで必要なサンプルサイズは、ネストしたクロスバリデーションを使用する場合、必要なものよりも50%高い可能性がある。
論文 参考訳(メタデータ) (2023-08-22T05:14:42Z) - Composite Goodness-of-fit Tests with Kernels [19.744607024807188]
本稿では,難解な複合テスト問題に対するカーネルベースの仮説テストを提案する。
実験では,最小距離推定器を用いて,最大平均誤差とカーネルのStein誤差を推定した。
主な結果として、パラメータを推定し、正しいテストレベルを維持しながら、同じデータ上でテストを実行することができることを示す。
論文 参考訳(メタデータ) (2021-11-19T15:25:06Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Least Squares Estimation Using Sketched Data with Heteroskedastic Errors [0.0]
ランダムなプロジェクションによってスケッチされたデータを用いた推定は、エラーがホモスケダスティックであるかのように振る舞うことを示す。
楽器関連性の第一段階Fテストを含む推論は、スケッチスキームが適切に選択された場合の完全なサンプルケースよりも簡単である。
論文 参考訳(メタデータ) (2020-07-15T15:58:27Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Stable Prediction via Leveraging Seed Variable [73.9770220107874]
従来の機械学習手法は、非因果変数によって誘導されるトレーニングデータにおいて、微妙に刺激的な相関を利用して予測する。
本研究では, 条件付き独立性テストに基づくアルゴリズムを提案し, 種子変数を先行変数とする因果変数を分離し, 安定な予測に採用する。
我々のアルゴリズムは、安定した予測のための最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-06-09T06:56:31Z) - A Causal Direction Test for Heterogeneous Populations [10.653162005300608]
ほとんどの因果モデルでは、単一の同質な集団を仮定するが、これは多くの応用において成り立たない仮定である。
等質性仮定に違反した場合、そのような仮定に基づいて開発された因果モデルが正しい因果方向を識別できないことを示す。
我々は,$k$-means型クラスタリングアルゴリズムを用いて,一般的な因果方向検定統計量の調整を提案する。
論文 参考訳(メタデータ) (2020-06-08T18:59:14Z) - Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。
設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。
合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2020-06-08T07:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。