論文の概要: Evaluating categorical encoding methods on a real credit card fraud
detection database
- arxiv url: http://arxiv.org/abs/2112.12024v1
- Date: Wed, 22 Dec 2021 16:48:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 16:07:39.115983
- Title: Evaluating categorical encoding methods on a real credit card fraud
detection database
- Title(参考訳): リアルクレジットカード不正検出データベースにおける分類符号化手法の評価
- Authors: Fran\c{c}ois de la Bourdonnaye and Fabrice Daniel
- Abstract要約: 対象統計と証拠の重みに基づく、よく知られた分類的符号化法について述べる。
我々は、最先端の勾配向上手法を用いて符号化されたデータベースを訓練し、その性能を評価する。
本研究の貢献は2つある:(1) 大規模データベース上で最先端の「礼儀正しい」分類法を比較し、(2) 実際のクレジットカード不正検出データベースを使用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Correctly dealing with categorical data in a supervised learning context is
still a major issue. Furthermore, though some machine learning methods embody
builtin methods to deal with categorical features, it is unclear whether they
bring some improvements and how do they compare with usual categorical encoding
methods. In this paper, we describe several well-known categorical encoding
methods that are based on target statistics and weight of evidence. We apply
them on a large and real credit card fraud detection database. Then, we train
the encoded databases using state-of-the-art gradient boosting methods and
evaluate their performances. We show that categorical encoding methods
generally bring substantial improvements with respect to the absence of
encoding. The contribution of this work is twofold: (1) we compare many
state-of-the-art "lite" categorical encoding methods on a large scale database
and (2) we use a real credit card fraud detection database.
- Abstract(参考訳): 教師付き学習コンテキストにおけるカテゴリデータの正しい処理は依然として大きな問題である。
さらに、いくつかの機械学習手法は、カテゴリ的特徴を扱うための組み込みメソッドを具体化しているが、いくつかの改善をもたらすか、通常のカテゴリ的エンコーディング手法とどのように比較されるのかは不明である。
本稿では,対象統計と証拠の重みに基づく,よく知られた分類符号化手法について述べる。
大規模かつ実物のクレジットカード不正検出データベースに適用する。
次に,最先端勾配強調法を用いて符号化データベースを訓練し,その性能評価を行う。
分類的符号化法は一般にエンコーディングの欠如に関して大幅に改善される。
本研究の貢献は2つある:(1) 大規模データベース上で最先端の「礼儀正しい」分類法を比較し、(2) 実際のクレジットカード不正検出データベースを使用する。
関連論文リスト
- Prototypical Hash Encoding for On-the-Fly Fine-Grained Category Discovery [65.16724941038052]
カテゴリ対応プロトタイプ生成(CPG)とディスクリミカテゴリ5.3%(DCE)が提案されている。
CPGは、各カテゴリを複数のプロトタイプで表現することで、カテゴリ内の多様性を完全にキャプチャすることを可能にする。
DCEは生成されたカテゴリプロトタイプのガイダンスによってハッシュコードの識別能力を向上する。
論文 参考訳(メタデータ) (2024-10-24T23:51:40Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Adaptive Hierarchical Certification for Segmentation using Randomized Smoothing [87.48628403354351]
機械学習の認証は、特定の条件下では、敵対的なサンプルが特定の範囲内でモデルを回避できないことを証明している。
セグメンテーションの一般的な認証方法は、平らな粒度のクラスを使い、モデルの不確実性による高い断続率をもたらす。
本稿では,複数レベルの階層内で画素を認証し,不安定なコンポーネントに対して粗いレベルに適応的に認証を緩和する,新しい,より実用的な設定を提案する。
論文 参考訳(メタデータ) (2024-02-13T11:59:43Z) - Towards Evaluating Transfer-based Attacks Systematically, Practically,
and Fairly [79.07074710460012]
ディープニューラルネットワーク(DNN)の敵対的脆弱性に大きな注目を集めている。
ブラックボックスDNNモデルを騙すための転送ベース手法が増えている。
30以上のメソッドを実装した転送ベースアタックベンチマーク(TA-Bench)を確立する。
論文 参考訳(メタデータ) (2023-11-02T15:35:58Z) - Evaluating resampling methods on a real-life highly imbalanced online
credit card payments dataset [0.0]
本稿では,大規模なオンラインクレジットカード決済データセット上での最先端のリサンプリング手法について検討する。
メソッドは難易度が高いか、メトリクスが大幅に改善されないため、それらが非効率であることを示す。
論文 参考訳(メタデータ) (2022-06-27T09:57:08Z) - A Pixel-based Encryption Method for Privacy-Preserving Deep Learning
Models [5.749044590090683]
本稿では,効率的な画素ベースの知覚暗号化手法を提案する。
この方法は、原画像の固有の特性を保ちながら、必要なレベルのセキュリティを提供する。
これにより、暗号化ドメイン内のディープラーニング(DL)アプリケーションを可能にする。
論文 参考訳(メタデータ) (2022-03-31T03:42:11Z) - Fairness Implications of Encoding Protected Categorical Attributes [26.7015058286397]
エンコード法として,エンコード法とエンフターゲット法という,よく知られた2種類の符号化手法の精度と妥当性を比較した。
第1のタイプは、テキスト可読バイアス(textitirredible bias)であり、第2のタイプは、統計的に表現されていないグループの大きなばらつきによるものである。
機械学習のベストプラクティスがいくつかのカテゴリ属性を高次心機能に符号化することで、パフォーマンス対策を改善する際に生じる交叉不公平さの問題を考察する。
論文 参考訳(メタデータ) (2022-01-27T07:39:26Z) - Regularized target encoding outperforms traditional methods in
supervised machine learning with high cardinality features [1.1709030738577393]
分類変数の数値表現を導出する手法を検討する。
異なるエンコーディング戦略と5つの機械学習アルゴリズムを比較した。
ターゲットエンコーディングの正規化バージョンが一貫して最高の結果を提供した。
論文 参考訳(メタデータ) (2021-04-01T17:21:42Z) - CIMON: Towards High-quality Hash Codes [63.37321228830102]
我々はtextbfComprehensive stextbfImilarity textbfMining と ctextbfOnsistency leartextbfNing (CIMON) という新しい手法を提案する。
まず、グローバルな洗練と類似度統計分布を用いて、信頼性とスムーズなガイダンスを得る。第二に、意味的整合性学習とコントラスト的整合性学習の両方を導入して、乱不変と差別的ハッシュコードの両方を導出する。
論文 参考訳(メタデータ) (2020-10-15T14:47:14Z) - Self-Supervised Bernoulli Autoencoders for Semi-Supervised Hashing [1.8899300124593648]
本稿では,変分オートエンコーダに基づくハッシュ手法のロバスト性と,監督の欠如について検討する。
本稿では,モデルがラベル分布予測を用いて一対の目的を実現する新しい監視手法を提案する。
実験の結果,いずれの手法もハッシュコードの品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-07-17T07:47:10Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。