論文の概要: Unsupervised Anomaly Detection for Auditing Data and Impact of
Categorical Encodings
- arxiv url: http://arxiv.org/abs/2210.14056v2
- Date: Wed, 26 Oct 2022 04:03:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 13:20:36.047245
- Title: Unsupervised Anomaly Detection for Auditing Data and Impact of
Categorical Encodings
- Title(参考訳): 監査データの教師なし異常検出とカテゴリエンコーディングの影響
- Authors: Ajay Chawda, Stefanie Grimm, Marius Kloft
- Abstract要約: 自動車クレームのデータセットは、自動車修理の不正な保険請求から成り立っている。
異常検出のためのベンチマークデータセットの欠落という一般的な問題に対処する。
データセットは浅層および深層学習法に基づいて評価される。
- 参考スコア(独自算出の注目度): 20.37092575427039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce the Vehicle Claims dataset, consisting of
fraudulent insurance claims for automotive repairs. The data belongs to the
more broad category of Auditing data, which includes also Journals and Network
Intrusion data. Insurance claim data are distinctively different from other
auditing data (such as network intrusion data) in their high number of
categorical attributes. We tackle the common problem of missing benchmark
datasets for anomaly detection: datasets are mostly confidential, and the
public tabular datasets do not contain relevant and sufficient categorical
attributes. Therefore, a large-sized dataset is created for this purpose and
referred to as Vehicle Claims (VC) dataset. The dataset is evaluated on shallow
and deep learning methods. Due to the introduction of categorical attributes,
we encounter the challenge of encoding them for the large dataset. As One Hot
encoding of high cardinal dataset invokes the "curse of dimensionality", we
experiment with GEL encoding and embedding layer for representing categorical
attributes. Our work compares competitive learning, reconstruction-error,
density estimation and contrastive learning approaches for Label, One Hot, GEL
encoding and embedding layer to handle categorical values.
- Abstract(参考訳): 本稿では,自動車修理の不正保険請求からなる車両請求データセットについて紹介する。
データは、JournalsやNetwork Intrusionのデータを含む、監査データのより広いカテゴリに属します。
保険請求データは、多くのカテゴリー属性において、他の監査データ(ネットワーク侵入データなど)と明確に異なる。
私たちは、異常検出のためのベンチマークデータセットの欠如に関する一般的な問題に取り組む:データセットは、主に機密であり、パブリックな表型データセットには、関連する、十分なカテゴリ属性が含まれていない。
そのため、この目的のために大規模なデータセットが作成され、Vager Claims(VC)データセットと呼ばれる。
データセットは浅層および深層学習法で評価される。
カテゴリ属性の導入により、大きなデータセットのためにそれらをエンコードするという課題に直面する。
高基数データセットのOne Hotエンコーディングは「次元の曲線」を呼び起こすので、GELエンコーディングと埋め込み層を用いて分類属性を表現する実験を行う。
本研究は,ラベル,1つのホットゲルエンコーディングおよび埋め込み層に対する競合学習,再構成エラー,密度推定および対比学習アプローチを比較し,カテゴリ値を扱う。
関連論文リスト
- Attribute-Based Semantic Type Detection and Data Quality Assessment [0.5735035463793008]
本研究では,属性に基づくセマンティック型検出とデータ品質評価を中心とした,革新的な手法を提案する。
属性ラベル内の意味情報とルールベースの分析と包括的フォーマット・省略辞書を組み合わせることで,本手法は実用的な意味型分類システムを導入する。
最先端のセマンティック型検出システムであるSherlockとの比較分析により,本手法の利点が示された。
論文 参考訳(メタデータ) (2024-10-04T09:22:44Z) - DREW : Towards Robust Data Provenance by Leveraging Error-Controlled Watermarking [58.37644304554906]
誤り訂正符号と透かしを用いたデータ検索法(DREW)を提案する。
DREWはランダムに参照データセットをクラスタ化し、各クラスタに独自のエラー制御された透かしキーを注入する。
関連するクラスタを特定した後、最も正確な一致を見つけるために、クラスタ内に埋め込みベクトル類似性検索を行う。
論文 参考訳(メタデータ) (2024-06-05T01:19:44Z) - Casual Conversations v2: Designing a large consent-driven dataset to
measure algorithmic bias and robustness [34.435124846961415]
Metaは、カテゴリの包括的なリストを持つ大規模な同意駆動データセットの収集に取り組んでいる。
本稿では,このようなカテゴリの設計とCasual Conversations v2のサブカテゴリについて述べる。
論文 参考訳(メタデータ) (2022-11-10T19:06:21Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - Learning Semantic Segmentation from Multiple Datasets with Label Shifts [101.24334184653355]
本論文では,ラベル空間が異なる複数のデータセットを対象としたモデルの自動学習手法であるUniSegを提案する。
具体的には,ラベルの相反と共起を考慮に入れた2つの損失を提案する。
論文 参考訳(メタデータ) (2022-02-28T18:55:19Z) - CvS: Classification via Segmentation For Small Datasets [52.821178654631254]
本稿では,分類ラベルをセグメントマップの予測から導出する小型データセットのコスト効率の高い分類器であるCvSを提案する。
我々は,CvSが従来の手法よりもはるかに高い分類結果が得られることを示す多種多様な問題に対して,本フレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2021-10-29T18:41:15Z) - Training Dynamic based data filtering may not work for NLP datasets [0.0]
NLPデータセットにおける誤り例を識別するために,AUM(Area Under the Margin)測定値の適用性を検討した。
我々は,NLPデータセットのAUM測定値を用いて誤ラベル付きサンプルをフィルタリングできることを発見したが,同時に,かなりの数の正確なラベル付きポイントを除去した。
論文 参考訳(メタデータ) (2021-09-19T18:50:45Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Sensitive Data Detection with High-Throughput Neural Network Models for
Financial Institutions [3.4161707164978137]
内部および合成データセットを用いて,NPI(Nonpublic Personally Identible)情報を検出する様々な方法を評価する。
CNN, LSTM, BiLSTM-CRF, CNN-CRFなどの特性レベルのニューラルネットワークモデルを2つの予測タスクで検討した。
論文 参考訳(メタデータ) (2020-12-17T14:11:03Z) - Predicting Themes within Complex Unstructured Texts: A Case Study on
Safeguarding Reports [66.39150945184683]
本稿では,教師付き分類手法を用いた保護レポートにおいて,主テーマの自動識別の問題に焦点をあてる。
この結果から,ラベル付きデータに制限のある複雑なタスクであっても,深層学習モデルが対象知識の振る舞いをシミュレートする可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T19:48:23Z) - On Cross-Dataset Generalization in Automatic Detection of Online Abuse [7.163723138100273]
Wikipedia Detoxデータセットの良質な例は、プラットフォーム固有のトピックに偏っていることを示す。
教師なしトピックモデリングとトピックのキーワードの手動検査を用いてこれらの例を同定する。
頑健なデータセット設計のために、収集したデータを検査し、一般化不可能なコンテンツを小さくするために、安価な教師なし手法を適用することを提案する。
論文 参考訳(メタデータ) (2020-10-14T21:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。