論文の概要: Cellwise Outliers
- arxiv url: http://arxiv.org/abs/2604.14182v1
- Date: Tue, 31 Mar 2026 10:36:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.705817
- Title: Cellwise Outliers
- Title(参考訳): セルワイズアウトリー
- Authors: Mia Hubert, Jakob Raymaekers, Peter J. Rousseeuw,
- Abstract要約: 統計学と機械学習の分野では、データの大部分と異なる振る舞いをするデータセットにおいて、"outlier"と"anomaly"という用語の伝統的な意味が用いられる。
しかし、近年はセルワイズ・アウトリー(セルワイズ・アウトリー)に注目が集まっている。
セルワイズ・アウトレーヤの検出とセルワイズ・ロバストな手法の構築には、ケースワイズ・セッティングとは全く異なる手法が必要であることが判明した。
- 参考スコア(独自算出の注目度): 0.8029049649310211
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In statistics and machine learning, the traditional meaning of the terms `outlier' and `anomaly' is a case in the dataset that behaves differently from the bulk of the data. This raises suspicion that it may belong to a different population. But nowadays increasing attention is being paid to so-called cellwise outliers. These are individual values somewhere in the data matrix (or data tensor). Depending on the dimension, even a relatively small proportion of outlying cells can contaminate over half the cases, which is a problem for existing casewise methods. It turns out that detecting cellwise outliers as well as constructing cellwise robust methods requires techniques that are quite different from the casewise setting. For instance, one has to let go of some intuitive equivariance properties. The problem is difficult, but the past decade has seen substantial progress. For high-dimensional data the cellwise approach is becoming dominant, and typically can deal with missing values as well. We review developments in the estimation of location and covariance matrices as well as regression methods, principal component analysis, methods for tensor data, and various other settings.
- Abstract(参考訳): 統計学と機械学習において、'outlier' と 'anomaly' という用語の伝統的な意味は、データセットのほとんどのデータと異なる振る舞いをするケースである。
これは別の集団に属する可能性があるという疑念を巻き起こす。
しかし、近年はセルワイズ・アウトリー(セルワイズ・アウトリー)に注目が集まっている。
これらはデータマトリックス(またはデータテンソル)のどこかにある個々の値です。
サイズによっては、外部細胞の割合が比較的小さい場合でも、半分以上のケースを汚染することができる。
セルワイズ・アウトレーヤの検出とセルワイズ・ロバストな手法の構築には、ケースワイズ・セッティングとは全く異なる手法が必要であることが判明した。
例えば、直感的同値性(英語版)を解放しなければならない。
問題は難しいが、過去10年ではかなり進歩している。
高次元データでは、セルワイズアプローチが支配的になり、典型的には欠落した値にも対処できる。
本稿では、位置および共分散行列の推定方法、回帰法、主成分分析、テンソルデータのための方法、その他様々な設定について概観する。
関連論文リスト
- Cellwise and Casewise Robust Covariance in High Dimensions [0.0]
cellRCovメソッドは、ケースワイド・アウトレイア、セルワイド・アウトレイア、および欠落したデータを同時に処理する。
シミュレーション研究は、汚染されたデータシナリオと欠落したデータシナリオにおいて、CellRCovの優れた性能を示す。
また、ロバストかつ規則化された正準相関解析のためのセルRCCA法の構築と説明を行う。
論文 参考訳(メタデータ) (2025-05-26T12:46:44Z) - Robust Multilinear Principal Component Analysis [0.0]
マルチ線形主成分分析(MPCA)はテンソルデータを解析するための重要なツールである。
標準MPCAは外れ値に敏感である。
本稿では,両タイプのアウトレイラを同時に処理できる新しい堅牢MPCA法を提案する。
論文 参考訳(メタデータ) (2025-03-10T13:41:03Z) - Implicit Manifold Gaussian Process Regression [49.0787777751317]
ガウス過程の回帰は、よく校正された不確実性推定を提供するために広く用いられている。
これは、データが実際に存在する暗黙の低次元多様体のため、高次元データに苦しむ。
本稿では,データ(ラベル付きおよびラベルなし)から直接暗黙構造を完全に微分可能な方法で推定できる手法を提案する。
論文 参考訳(メタデータ) (2023-10-30T09:52:48Z) - The Cellwise Minimum Covariance Determinant Estimator [1.90365714903665]
そこで本研究では,MCD方式のセルワイド・ロバストなバージョンであるCellMCDを提案する。
セルワイド・アウトリーのシミュレーションでは良好に動作し、クリーンなデータに対する有限サンプル効率が高い。
実際のデータと結果の視覚化で示される。
論文 参考訳(メタデータ) (2022-07-27T12:33:51Z) - Equivariance Discovery by Learned Parameter-Sharing [153.41877129746223]
データから解釈可能な等価性を発見する方法について検討する。
具体的には、モデルのパラメータ共有方式に対する最適化問題として、この発見プロセスを定式化する。
また,ガウスデータの手法を理論的に解析し,研究された発見スキームとオラクルスキームの間の平均2乗ギャップを限定する。
論文 参考訳(メタデータ) (2022-04-07T17:59:19Z) - Manifold Hypothesis in Data Analysis: Double Geometrically-Probabilistic
Approach to Manifold Dimension Estimation [92.81218653234669]
本稿では, 多様体仮説の検証と基礎となる多様体次元推定に対する新しいアプローチを提案する。
我々の幾何学的手法はミンコフスキー次元計算のためのよく知られたボックスカウントアルゴリズムのスパースデータの修正である。
実データセットの実験では、2つの手法の組み合わせに基づく提案されたアプローチが強力で効果的であることが示されている。
論文 参考訳(メタデータ) (2021-07-08T15:35:54Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Missing Value Imputation on Multidimensional Time Series [16.709162372224355]
本稿では,多次元時系列データセットにおける深層学習手法DeepMVIを提案する。
DeepMVIは、時系列に沿った細粒度と粗粒度パターンと、カテゴリ次元にわたる関連するシリーズのトレンドを組み合わせる。
実験の結果、DeepMVIの精度は著しく向上し、半数以上のケースで50%以上のエラーが削減された。
論文 参考訳(メタデータ) (2021-03-02T09:55:05Z) - Spectral Learning on Matrices and Tensors [74.88243719463053]
テンソル分解は行列法で欠落する潜伏効果を拾うことができることを示す。
また,効率的なテンソル分解法を設計するための計算手法についても概説する。
論文 参考訳(メタデータ) (2020-04-16T22:53:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。