論文の概要: Comparison of Outlier Detection Techniques for Structured Data
- arxiv url: http://arxiv.org/abs/2106.08779v1
- Date: Wed, 16 Jun 2021 13:40:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:15:45.748380
- Title: Comparison of Outlier Detection Techniques for Structured Data
- Title(参考訳): 構造データにおける外乱検出手法の比較
- Authors: Amulya Agarwal and Nitin Gupta
- Abstract要約: 外れ値(outlier)は、与えられたデータセットの残りのデータポイントから遠く離れた観測またはデータポイントである。
モデリングの前にトレーニングデータセットから外れ値を削除することで、より良い予測が可能になることが示されている。
この研究の目的は、データサイエンティストがその情報を使って外れ値のアルゴリズムの選択を行うために、既存の外れ値検出技術をいくつか強調し、比較することである。
- 参考スコア(独自算出の注目度): 2.2907341026741017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An outlier is an observation or a data point that is far from rest of the
data points in a given dataset or we can be said that an outlier is away from
the center of mass of observations. Presence of outliers can skew statistical
measures and data distributions which can lead to misleading representation of
the underlying data and relationships. It is seen that the removal of outliers
from the training dataset before modeling can give better predictions. With the
advancement of machine learning, the outlier detection models are also
advancing at a good pace. The goal of this work is to highlight and compare
some of the existing outlier detection techniques for the data scientists to
use that information for outlier algorithm selection while building a machine
learning model.
- Abstract(参考訳): 外れ値 (outlier) は、与えられたデータセットの残りのデータポイントから遠く離れた観測点またはデータポイント、または、外れ値が観測の質量の中心から離れていると言えます。
外れ値の存在は統計測度やデータ分布を歪め、基礎となるデータと関係の誤解を招く可能性がある。
モデリングの前にトレーニングデータセットから外れ値を削除することで、より良い予測が可能になる。
機械学習の進歩により、異常検出モデルも良いペースで進歩している。
この研究の目的は、データサイエンティストが機械学習モデルを構築しながら、その情報を使用して外れ値のアルゴリズム選択を行うために、既存の外れ値検出技術をいくつか強調して比較することである。
関連論文リスト
- Unsupervised Event Outlier Detection in Continuous Time [4.375463200687156]
我々は、我々の知る限り、異常事象を検出するための最初の教師なし外乱検出手法を開発した。
我々は、実際のデータから修正されたデータを識別する'ディスクリミネータ'を用いて、データの異常値を補正する'ジェネレータ'を訓練する。
実験結果から,本手法は最先端手法よりも高精度にイベント異常を検出できることが示唆された。
論文 参考訳(メタデータ) (2024-11-25T14:29:39Z) - Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Quantile-based Maximum Likelihood Training for Outlier Detection [5.902139925693801]
我々は,推定時の外乱分離を改善するために,不整合分布を学習するための量子化に基づく最大極大目標を提案する。
本手法は, 事前学習した識別特徴に正規化フローを適合させ, 評価されたログ類似度に応じて異常値を検出する。
論文 参考訳(メタデータ) (2023-08-20T22:27:54Z) - Meta-Learning for Unsupervised Outlier Detection with Optimal Transport [4.035753155957698]
そこで本稿では,従来のデータセットからのメタラーニングに基づく異常検出の自動化手法を提案する。
特に最適なトランスポートを活用して、最も類似した分布を持つデータセットを見つけ、そのデータ分散に最も適することが証明された外れ値検出技術を適用します。
論文 参考訳(メタデータ) (2022-11-01T10:36:48Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Unsupervised Outlier Detection using Memory and Contrastive Learning [53.77693158251706]
特徴空間における外乱検出は,外乱検出から外乱検出までの特徴距離を測定することで行うことができると考えている。
本稿では,メモリモジュールとコントラスト学習モジュールを用いたMCODフレームワークを提案する。
提案したMCODは高い性能を達成し,9つの最先端手法より優れる。
論文 参考訳(メタデータ) (2021-07-27T07:35:42Z) - Do We Really Need to Learn Representations from In-domain Data for
Outlier Detection? [6.445605125467574]
2段階のフレームワークに基づく手法は、このタスクで最先端のパフォーマンスを達成する。
我々は,各外乱検出タスクに対して,異なる表現を訓練するコストが高いことを避ける可能性を探る。
実験では, 従来の2段階法と比較して, 様々な外乱検出ベンチマークにおいて, 競争力や性能が向上することを示した。
論文 参考訳(メタデータ) (2021-05-19T17:30:28Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。