論文の概要: Robust learning of data anomalies with analytically-solvable entropic
outlier sparsification
- arxiv url: http://arxiv.org/abs/2112.11768v1
- Date: Wed, 22 Dec 2021 10:13:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 15:11:37.184186
- Title: Robust learning of data anomalies with analytically-solvable entropic
outlier sparsification
- Title(参考訳): 解析的に解くエントロピック外乱スパーシフィケーションを用いたデータ異常のロバスト学習
- Authors: Illia Horenko
- Abstract要約: Outlier Sparsification (EOS) はデータ異常検出のための堅牢な計算戦略として提案されている。
EOSの性能は、合成問題や、バイオメディシンからの部分的に分類された分類問題において、一般的に使用される様々なツールと比較される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Entropic Outlier Sparsification (EOS) is proposed as a robust computational
strategy for the detection of data anomalies in a broad class of learning
methods, including the unsupervised problems (like detection of non-Gaussian
outliers in mostly-Gaussian data) and in the supervised learning with
mislabeled data. EOS dwells on the derived analytic closed-form solution of the
(weighted) expected error minimization problem subject to the Shannon entropy
regularization. In contrast to common regularization strategies requiring
computational costs that scale polynomial with the data dimension, identified
closed-form solution is proven to impose additional iteration costs that depend
linearly on statistics size and are independent of data dimension. Obtained
analytic results also explain why the mixtures of spherically-symmetric
Gaussians - used heuristically in many popular data analysis algorithms -
represent an optimal choice for the non-parametric probability distributions
when working with squared Euclidean distances, combining expected error
minimality, maximal entropy/unbiasedness, and a linear cost scaling. The
performance of EOS is compared to a range of commonly-used tools on synthetic
problems and on partially-mislabeled supervised classification problems from
biomedicine.
- Abstract(参考訳): Entropic Outlier Sparsification (EOS) は、教師なし問題(主にガウシアンデータにおける非ガウシアン外乱の検出など)や、教師付き学習における誤ったラベル付きデータを含む幅広い学習手法において、データ異常を検出するための堅牢な計算戦略として提案されている。
EOSはシャノンエントロピー正則化の対象となる(重み付けされた)予測誤差最小化問題の導出した解析的閉形式解に富む。
データ次元と多項式をスケールする計算コストを必要とする一般的な正規化戦略とは対照的に、特定された閉形式解は、統計量に依存し、データ次元に依存しない追加の反復コストを課すことが証明される。
得られた分析結果は、球対称ガウスの混合が多くの一般的なデータ解析アルゴリズムでヒューリスティックに用いた理由も説明できる: 正方形ユークリッド距離を扱う場合の非パラメトリック確率分布の最適選択を表し、期待される誤差極小性、最大エントロピー/不偏性、線形コストスケーリングを組み合わせている。
eosの性能は, 合成問題や, バイオメディシンからの教師付き分類問題において, 広く用いられているツールと比較される。
関連論文リスト
- Generalization Analysis of Machine Learning Algorithms via the
Worst-Case Data-Generating Probability Measure [1.773764539873123]
データに対する最悪の確率測定は、機械学習アルゴリズムの一般化能力を特徴づけるツールとして紹介される。
予測損失の感度、経験的リスクの感度、一般化ギャップなどの基本的な一般化指標は、クローズドフォーム表現を持つことが示されている。
最悪のデータ生成確率尺度とギブスアルゴリズムとの間には,新たな並列性が確立されている。
論文 参考訳(メタデータ) (2023-12-19T15:20:27Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - A Robust and Flexible EM Algorithm for Mixtures of Elliptical
Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。
楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。
合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T10:01:37Z) - Low-rank statistical finite elements for scalable model-data synthesis [0.8602553195689513]
statFEMは、支配方程式に強制を埋め込むことによって、事前モデルの誤特定を認める。
この方法は、観測されたデータ生成過程を最小限の情報損失で再構築する。
本稿では、下層の密度共分散行列の低ランク近似を埋め込むことで、このハードルを克服する。
論文 参考訳(メタデータ) (2021-09-10T09:51:43Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Stochastic Approximation for Online Tensorial Independent Component
Analysis [98.34292831923335]
独立成分分析(ICA)は統計機械学習や信号処理において一般的な次元削減ツールである。
本稿では,各独立成分を推定する副産物オンライン時系列アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T18:52:37Z) - General stochastic separation theorems with optimal bounds [68.8204255655161]
分離性の現象が明らかになり、機械学習で人工知能(AI)システムのエラーを修正し、AI不安定性を分析するために使用された。
エラーやエラーのクラスタは、残りのデータから分離することができる。
AIシステムを修正する能力は、それに対する攻撃の可能性も開き、高次元性は、同じ分離性によって引き起こされる脆弱性を誘発する。
論文 参考訳(メタデータ) (2020-10-11T13:12:41Z) - Information Theory Measures via Multidimensional Gaussianization [7.788961560607993]
情報理論は、データやシステムの不確実性、依存、関連性を測定するための優れたフレームワークである。
現実世界の応用にはいくつかの望ましい性質がある。
しかし,多次元データから情報を取得することは,次元性の呪いによる難題である。
論文 参考訳(メタデータ) (2020-10-08T07:22:16Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。