論文の概要: Robust High-Dimensional Mean Estimation With Low Data Size, an Empirical Study
- arxiv url: http://arxiv.org/abs/2502.11324v1
- Date: Mon, 17 Feb 2025 00:21:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:36.996160
- Title: Robust High-Dimensional Mean Estimation With Low Data Size, an Empirical Study
- Title(参考訳): 低データサイズによるロバストな高次元平均推定 : 実証的研究
- Authors: Cullen Anderson, Jeff M. Phillips,
- Abstract要約: 最も重要な統計は平均であり、近年は、崩壊したデータに対する高次元の平均を効率的に推定する理論上の進歩が急増している。
ほぼ最適誤差を達成するアルゴリズムがいくつか提案されているが、これらはすべて次元の関数として大きなデータサイズ要求に依存している。
- 参考スコア(独自算出の注目度): 8.234735564035567
- License:
- Abstract: Robust statistics aims to compute quantities to represent data where a fraction of it may be arbitrarily corrupted. The most essential statistic is the mean, and in recent years, there has been a flurry of theoretical advancement for efficiently estimating the mean in high dimensions on corrupted data. While several algorithms have been proposed that achieve near-optimal error, they all rely on large data size requirements as a function of dimension. In this paper, we perform an extensive experimentation over various mean estimation techniques where data size might not meet this requirement due to the high-dimensional setting.
- Abstract(参考訳): ロバスト統計は、その一部が任意に破損する可能性のあるデータを表現するために量を計算することを目的としている。
最も重要な統計は平均であり、近年は、崩壊したデータに対する高次元の平均を効率的に推定する理論上の進歩が急増している。
ほぼ最適誤差を達成するアルゴリズムがいくつか提案されているが、これらはすべて次元の関数として大きなデータサイズ要求に依存している。
本稿では,データサイズが高次元設定のため,この要件を満たすことのない様々な平均推定手法について広範な実験を行う。
関連論文リスト
- Distributed Semi-Supervised Sparse Statistical Inference [6.685997976921953]
縮退推定器は高次元モデルパラメータの統計的推測において重要なツールである。
従来の手法では、すべてのマシンで偏りのある推定器を計算する必要がある。
ラベル付きデータと非ラベル付きデータを統合した効率的なマルチラウンド分散脱バイアス推定器を開発した。
論文 参考訳(メタデータ) (2023-06-17T17:30:43Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - Development of fully intuitionistic fuzzy data envelopment analysis
model with missing data: an application to Indian police sector [2.9434930072968584]
DEAは意思決定単位(DMU)の効率を測定する技術である
通常、データは人間、機械、またはその両方によって収集される。
データの欠落した値と不正確性に対処できる方法が提示される。
本報告では,インドにおける警察署の性能効率を実生活で測定するアプリケーションについて述べる。
論文 参考訳(メタデータ) (2022-07-27T18:20:13Z) - How Much More Data Do I Need? Estimating Requirements for Downstream
Tasks [99.44608160188905]
小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か?
データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。
本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
論文 参考訳(メタデータ) (2022-07-04T21:16:05Z) - Gaining Outlier Resistance with Progressive Quantiles: Fast Algorithms
and Theoretical Studies [1.6457778420360534]
任意の損失関数を強固化するために, 外部抵抗推定の枠組みを導入する。
通常のデータセットでは、データ再見積の回数を大幅に削減できるような、開始点の要件を緩和する新しい手法が提案されている。
得られた推定器は、必ずしも大域的でも大域的でもなくても、両方の低次元において最適性を楽しむことができる。
論文 参考訳(メタデータ) (2021-12-15T20:35:21Z) - HYDRA: Hypergradient Data Relevance Analysis for Interpreting Deep
Neural Networks [51.143054943431665]
本稿では、深層ニューラルネットワーク(DNN)による予測をトレーニングデータの効果として解釈する高次データ関連分析(HYDRA)を提案する。
HYDRAは、トレーニング軌跡全体を通して、テストデータポイントに対するトレーニングデータの貢献を評価する。
さらに,HyDRAは,データのコントリビューションを正確に推定し,ノイズのあるデータラベルを検出することで,影響関数よりも優れていることを定量的に示す。
論文 参考訳(メタデータ) (2021-02-04T10:00:13Z) - High-Dimensional Multi-Task Averaging and Application to Kernel Mean
Embedding [0.0]
マルチタスク平均化問題に対する改善された推定器を提案する。
我々は、この手法が平均二乗誤差の低減をもたらすことを理論的に証明する。
このアプローチの応用は、複数のカーネルの平均埋め込みの推定である。
論文 参考訳(メタデータ) (2020-11-13T07:31:30Z) - Effective Data-aware Covariance Estimator from Compressed Data [63.16042585506435]
本研究では,データ対応重み付きサンプリングベース共分散行列推定器,すなわち DACE を提案し,非バイアス共分散行列推定を行う。
我々は、DACEの優れた性能を示すために、合成データセットと実世界のデータセットの両方で広範な実験を行う。
論文 参考訳(メタデータ) (2020-10-10T10:10:28Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Variable Skipping for Autoregressive Range Density Estimation [84.60428050170687]
深部自己回帰モデルを用いた距離密度推定を高速化する手法である可変スキップについて述べる。
可変スキップは、10-100$timesの効率向上をもたらすことを示す。
論文 参考訳(メタデータ) (2020-07-10T19:01:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。