論文の概要: Evaluating categorical encoding methods on a real credit card fraud
detection database
- arxiv url: http://arxiv.org/abs/2112.12024v1
- Date: Wed, 22 Dec 2021 16:48:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 16:07:39.115983
- Title: Evaluating categorical encoding methods on a real credit card fraud
detection database
- Title(参考訳): リアルクレジットカード不正検出データベースにおける分類符号化手法の評価
- Authors: Fran\c{c}ois de la Bourdonnaye and Fabrice Daniel
- Abstract要約: 対象統計と証拠の重みに基づく、よく知られた分類的符号化法について述べる。
我々は、最先端の勾配向上手法を用いて符号化されたデータベースを訓練し、その性能を評価する。
本研究の貢献は2つある:(1) 大規模データベース上で最先端の「礼儀正しい」分類法を比較し、(2) 実際のクレジットカード不正検出データベースを使用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Correctly dealing with categorical data in a supervised learning context is
still a major issue. Furthermore, though some machine learning methods embody
builtin methods to deal with categorical features, it is unclear whether they
bring some improvements and how do they compare with usual categorical encoding
methods. In this paper, we describe several well-known categorical encoding
methods that are based on target statistics and weight of evidence. We apply
them on a large and real credit card fraud detection database. Then, we train
the encoded databases using state-of-the-art gradient boosting methods and
evaluate their performances. We show that categorical encoding methods
generally bring substantial improvements with respect to the absence of
encoding. The contribution of this work is twofold: (1) we compare many
state-of-the-art "lite" categorical encoding methods on a large scale database
and (2) we use a real credit card fraud detection database.
- Abstract(参考訳): 教師付き学習コンテキストにおけるカテゴリデータの正しい処理は依然として大きな問題である。
さらに、いくつかの機械学習手法は、カテゴリ的特徴を扱うための組み込みメソッドを具体化しているが、いくつかの改善をもたらすか、通常のカテゴリ的エンコーディング手法とどのように比較されるのかは不明である。
本稿では,対象統計と証拠の重みに基づく,よく知られた分類符号化手法について述べる。
大規模かつ実物のクレジットカード不正検出データベースに適用する。
次に,最先端勾配強調法を用いて符号化データベースを訓練し,その性能評価を行う。
分類的符号化法は一般にエンコーディングの欠如に関して大幅に改善される。
本研究の貢献は2つある:(1) 大規模データベース上で最先端の「礼儀正しい」分類法を比較し、(2) 実際のクレジットカード不正検出データベースを使用する。
関連論文リスト
- Towards Evaluating Transfer-based Attacks Systematically, Practically,
and Fairly [79.07074710460012]
ディープニューラルネットワーク(DNN)の敵対的脆弱性に大きな注目を集めている。
ブラックボックスDNNモデルを騙すための転送ベース手法が増えている。
30以上のメソッドを実装した転送ベースアタックベンチマーク(TA-Bench)を確立する。
論文 参考訳(メタデータ) (2023-11-02T15:35:58Z) - Verifying the Robustness of Automatic Credibility Assessment [79.08422736721764]
テキスト分類法は信頼性の低い内容を検出する手段として広く研究されている。
入力テキストの無意味な変更は、モデルを誤解させることがある。
偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Evaluating resampling methods on a real-life highly imbalanced online
credit card payments dataset [0.0]
本稿では,大規模なオンラインクレジットカード決済データセット上での最先端のリサンプリング手法について検討する。
メソッドは難易度が高いか、メトリクスが大幅に改善されないため、それらが非効率であることを示す。
論文 参考訳(メタデータ) (2022-06-27T09:57:08Z) - A Pixel-based Encryption Method for Privacy-Preserving Deep Learning
Models [5.749044590090683]
本稿では,効率的な画素ベースの知覚暗号化手法を提案する。
この方法は、原画像の固有の特性を保ちながら、必要なレベルのセキュリティを提供する。
これにより、暗号化ドメイン内のディープラーニング(DL)アプリケーションを可能にする。
論文 参考訳(メタデータ) (2022-03-31T03:42:11Z) - Fairness Implications of Encoding Protected Categorical Attributes [26.7015058286397]
エンコード法として,エンコード法とエンフターゲット法という,よく知られた2種類の符号化手法の精度と妥当性を比較した。
第1のタイプは、テキスト可読バイアス(textitirredible bias)であり、第2のタイプは、統計的に表現されていないグループの大きなばらつきによるものである。
機械学習のベストプラクティスがいくつかのカテゴリ属性を高次心機能に符号化することで、パフォーマンス対策を改善する際に生じる交叉不公平さの問題を考察する。
論文 参考訳(メタデータ) (2022-01-27T07:39:26Z) - SparseDet: Improving Sparsely Annotated Object Detection with
Pseudo-positive Mining [76.95808270536318]
Pseudo- positive mining を用いてラベル付き地域とラベルなし地域を分離するエンド・ツー・エンドシステムを提案する。
ラベル付き領域は通常通り処理されるが、ラベルなし領域の処理には自己教師付き学習が使用される。
我々は,PASCAL-VOCとCOCOデータセットの5つの分割に対して,最先端の性能を達成するための徹底的な実験を行った。
論文 参考訳(メタデータ) (2022-01-12T18:57:04Z) - Regularized target encoding outperforms traditional methods in
supervised machine learning with high cardinality features [1.1709030738577393]
分類変数の数値表現を導出する手法を検討する。
異なるエンコーディング戦略と5つの機械学習アルゴリズムを比較した。
ターゲットエンコーディングの正規化バージョンが一貫して最高の結果を提供した。
論文 参考訳(メタデータ) (2021-04-01T17:21:42Z) - Adversarial Attacks on Binary Image Recognition Systems [78.78811131936622]
本研究では,二分法(黒と白)画像分類モデルに対する敵対攻撃について検討する。
カラー画像とグレースケール画像とは対照的に、バイナリ画像に対する攻撃の探索空間は極めて制限されている。
バイナリイメージの分類を騙すために設計された,SCARと呼ばれる新しい攻撃アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-10-22T14:57:42Z) - CIMON: Towards High-quality Hash Codes [63.37321228830102]
我々はtextbfComprehensive stextbfImilarity textbfMining と ctextbfOnsistency leartextbfNing (CIMON) という新しい手法を提案する。
まず、グローバルな洗練と類似度統計分布を用いて、信頼性とスムーズなガイダンスを得る。第二に、意味的整合性学習とコントラスト的整合性学習の両方を導入して、乱不変と差別的ハッシュコードの両方を導出する。
論文 参考訳(メタデータ) (2020-10-15T14:47:14Z) - Self-Supervised Bernoulli Autoencoders for Semi-Supervised Hashing [1.8899300124593648]
本稿では,変分オートエンコーダに基づくハッシュ手法のロバスト性と,監督の欠如について検討する。
本稿では,モデルがラベル分布予測を用いて一対の目的を実現する新しい監視手法を提案する。
実験の結果,いずれの手法もハッシュコードの品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-07-17T07:47:10Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。