論文の概要: Markov subsampling based Huber Criterion
- arxiv url: http://arxiv.org/abs/2112.06134v1
- Date: Sun, 12 Dec 2021 03:11:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 16:29:41.822555
- Title: Markov subsampling based Huber Criterion
- Title(参考訳): マルコフサブサンプリングに基づくフーバー基準
- Authors: Tieliang Gong and Yuxin Dong and Hong Chen and Bo Dong and Chen Li
- Abstract要約: サブサンプリングは、ビッグデータによってもたらされる計算課題に対処するための重要なテクニックである。
我々は,ハマー基準(HMS)に基づく新しいマルコフサブサンプリング戦略を設計し,ノイズの多い全データから情報的サブセットを構築する。
HMSはメトロポリス・ハスティング(Metropolis-Hasting)手順に基づいて構築され、各サンプリングユニットの包含確率が決定される。
軽度条件下では,HMSが選択したサブサンプルに基づく推定器は,ガウス下偏差境界と統計的に一致していることを示す。
- 参考スコア(独自算出の注目度): 13.04847430878172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Subsampling is an important technique to tackle the computational challenges
brought by big data. Many subsampling procedures fall within the framework of
importance sampling, which assigns high sampling probabilities to the samples
appearing to have big impacts. When the noise level is high, those sampling
procedures tend to pick many outliers and thus often do not perform
satisfactorily in practice. To tackle this issue, we design a new Markov
subsampling strategy based on Huber criterion (HMS) to construct an informative
subset from the noisy full data; the constructed subset then serves as a
refined working data for efficient processing. HMS is built upon a
Metropolis-Hasting procedure, where the inclusion probability of each sampling
unit is determined using the Huber criterion to prevent over scoring the
outliers. Under mild conditions, we show that the estimator based on the
subsamples selected by HMS is statistically consistent with a sub-Gaussian
deviation bound. The promising performance of HMS is demonstrated by extensive
studies on large scale simulations and real data examples.
- Abstract(参考訳): サブサンプリングは、ビッグデータによってもたらされる計算課題に対処するための重要なテクニックである。
多くのサブサンプリング手順は、重要サンプリングの枠組みに該当し、大きな影響を与えると思われるサンプルに高いサンプリング確率を割り当てる。
ノイズレベルが高い場合、サンプリング手順は多くの外れ値を選択する傾向があり、実際は満足して実行されないことが多い。
この問題に対処するため,我々は,HMS(Huber criterion)に基づく新しいマルコフサブサンプリング戦略を設計し,ノイズの多い全データから情報的サブセットを構築する。
hmsは、各サンプリングユニットの包含確率をフーバー基準を用いて決定し、外れ値のオーバースコアを防止するメトロポリス・ハスティング手順に基づいて構築される。
軽度条件下では,HMSが選択したサブサンプルに基づく推定器はガウス下偏差境界と統計的に一致している。
HMSの有望な性能は、大規模シミュレーションと実データ例に関する広範な研究によって実証されている。
関連論文リスト
- Enhancing Sample Utilization in Noise-Robust Deep Metric Learning With Subgroup-Based Positive-Pair Selection [84.78475642696137]
実世界のデータにノイズラベルが存在することは、ディープラーニングモデルの性能に悪影響を及ぼす。
サブグループに基づく正対選択(SGPS)を用いたノイズロストDMLフレームワークを提案する。
SGPSは、ノイズのあるサンプルに対して信頼性の高い正のペアを構築し、サンプルの利用率を高める。
論文 参考訳(メタデータ) (2025-01-19T14:41:55Z) - ANNE: Adaptive Nearest Neighbors and Eigenvector-based Sample Selection for Robust Learning with Noisy Labels [7.897299759691143]
本稿では,Adaptive Nearest Neighbors and Eigenvector-based sample selection methodを紹介する。
ANNEは、損失に基づくサンプリングとFINEとAdaptive KNNを統合し、幅広いノイズレートシナリオのパフォーマンスを最適化する。
論文 参考訳(メタデータ) (2024-11-03T15:51:38Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - BSGAN: A Novel Oversampling Technique for Imbalanced Pattern
Recognitions [0.0]
クラス不均衡問題(CIP)は、予測のための非バイアスの機械学習(ML)モデルを開発する際の潜在的な課題の1つである。
CIPは、データサンプルが2つまたは複数のクラス間で等しく分散されていない場合に発生する。
本研究では,より多様なデータを生成するために,境界線SMOTEとジェネレーティブ・アドリラル・ネットワークのパワーを組み合わせたハイブリッド・オーバーサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-05-16T20:02:39Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - A Novel Hybrid Sampling Framework for Imbalanced Learning [0.0]
SMOTE-RUS-NC」は他の最先端サンプリング技術と比較されている。
26個の不均衡なデータセットで厳密な実験が行われた。
論文 参考訳(メタデータ) (2022-08-20T07:04:00Z) - Adaptive Sketches for Robust Regression with Importance Sampling [64.75899469557272]
我々は、勾配降下(SGD)による頑健な回帰を解くためのデータ構造を導入する。
我々のアルゴリズムは、サブ線形空間を使用し、データに1回パスするだけで、SGDの$T$ステップを重要サンプリングで効果的に実行します。
論文 参考訳(メタデータ) (2022-07-16T03:09:30Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z) - Noise-Resistant Deep Metric Learning with Probabilistic Instance
Filtering [59.286567680389766]
ノイズラベルは現実世界のデータによく見られ、ディープニューラルネットワークの性能劣化を引き起こす。
DMLのための確率的ランク付けに基づくメモリを用いたインスタンス選択(PRISM)手法を提案する。
PRISMはラベルがクリーンである確率を計算し、潜在的にノイズの多いサンプルをフィルタリングする。
論文 参考訳(メタデータ) (2021-08-03T12:15:25Z) - Robust M-Estimation Based Bayesian Cluster Enumeration for Real
Elliptically Symmetric Distributions [5.137336092866906]
データセットにおける最適なクラスタ数のロバストな決定は、広範囲のアプリケーションにおいて必須の要素である。
本稿では任意のReally Symmetric(RES)分散混合モデルで使用できるように一般化する。
サンプルサイズが有限であるデータセットに対して,ロバストな基準を導出するとともに,大規模なサンプルサイズでの計算コスト削減のための近似を提供する。
論文 参考訳(メタデータ) (2020-05-04T11:44:49Z) - CSMOUTE: Combined Synthetic Oversampling and Undersampling Technique for
Imbalanced Data Classification [1.8275108630751844]
本稿では,SMUTE(Synthetic Majority Undersampling Technique)の分類課題におけるデータ不均衡処理のための新しいデータレベルアルゴリズムを提案する。
我々は、SMOTEオーバサンプリングとSMUTEアンダーサンプリングを統合するCSMOUTE(Combined Synthetic Oversampling and Undersampling Technique)を併用する。
実験の結果,SMUTEアルゴリズムとCSMOUTEアルゴリズムの両方の有用性が示された。
論文 参考訳(メタデータ) (2020-04-07T14:03:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。