論文の概要: Challenging Gradient Boosted Decision Trees with Tabular Transformers for Fraud Detection at Booking.com
- arxiv url: http://arxiv.org/abs/2405.13692v1
- Date: Wed, 22 May 2024 14:38:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 23:45:08.044808
- Title: Challenging Gradient Boosted Decision Trees with Tabular Transformers for Fraud Detection at Booking.com
- Title(参考訳): Booking.comにおけるフラッド検出のためのタブラル変圧器を用いた勾配ブースト決定木
- Authors: Sergei Krutikov, Bulat Khaertdinov, Rodion Kiriukhin, Shubham Agrawal, Kees Jan De Vries,
- Abstract要約: 自己監視学習(SSL)によって強化されたトランスフォーマーベースのニューラルネットワークは、さまざまなドメインで前例のないパフォーマンスを示している。
本稿では,電子商取引における典型的な課題である不正検出において,表型変換器を用いたGBDTに挑戦することを目的とする。
我々の手法はトランスフォーマーの能力を利用して、SSLを使ってすべての利用可能なデータを使って転送可能な表現を学習する。
提案手法は、平均精度(AP)スコアのかなりのマージンで、調整されたGBDTよりも優れている。
- 参考スコア(独自算出の注目度): 1.6702285371066043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based neural networks, empowered by Self-Supervised Learning (SSL), have demonstrated unprecedented performance across various domains. However, related literature suggests that tabular Transformers may struggle to outperform classical Machine Learning algorithms, such as Gradient Boosted Decision Trees (GBDT). In this paper, we aim to challenge GBDTs with tabular Transformers on a typical task faced in e-commerce, namely fraud detection. Our study is additionally motivated by the problem of selection bias, often occurring in real-life fraud detection systems. It is caused by the production system affecting which subset of traffic becomes labeled. This issue is typically addressed by sampling randomly a small part of the whole production data, referred to as a Control Group. This subset follows a target distribution of production data and therefore is usually preferred for training classification models with standard ML algorithms. Our methodology leverages the capabilities of Transformers to learn transferable representations using all available data by means of SSL, giving it an advantage over classical methods. Furthermore, we conduct large-scale experiments, pre-training tabular Transformers on vast amounts of data instances and fine-tuning them on smaller target datasets. The proposed approach outperforms heavily tuned GBDTs by a considerable margin of the Average Precision (AP) score. Pre-trained models show more consistent performance than the ones trained from scratch when fine-tuning data is limited. Moreover, they require noticeably less labeled data for reaching performance comparable to their GBDT competitor that utilizes the whole dataset.
- Abstract(参考訳): 自己監視学習(SSL)によって強化されたトランスフォーマーベースのニューラルネットワークは、さまざまなドメインで前例のないパフォーマンスを示している。
しかし、関連する文献によると、表型トランスフォーマーは、GBDT(Gradient Boosted Decision Trees)のような古典的な機械学習アルゴリズムよりも優れている。
本稿では,電子商取引における典型的な課題である不正検出において,表型変換器を用いたGBDTに挑戦することを目的とする。
本研究は,実生活における不正検出システムにおいてしばしば発生する選択バイアスの問題によってもたらされる。
それは、どのサブセットがラベル付けされるかに影響する生産システムによって引き起こされる。
この問題は典型的には、制御グループと呼ばれる生産データ全体の小さな部分をランダムにサンプリングすることで解決される。
このサブセットは生産データのターゲット分布に従うため、通常標準のMLアルゴリズムを用いた分類モデルのトレーニングに好まれる。
我々の手法はトランスフォーマーがSSLで利用可能なすべてのデータを使って転送可能な表現を学習する能力を活用しており、従来の方法よりも有利である。
さらに、大規模な実験を行い、大量のデータインスタンス上でタブ型トランスフォーマーを事前訓練し、より小さなターゲットデータセット上でそれらを微調整する。
提案手法は、平均精度(AP)スコアのかなりのマージンで、調整されたGBDTよりも優れている。
事前トレーニングされたモデルは、微調整データに制限がある場合、スクラッチからトレーニングしたモデルよりも一貫性のあるパフォーマンスを示す。
さらに、データセット全体を利用するGBDT競合に匹敵するパフォーマンスに到達するには、明らかにラベル付きデータが必要である。
関連論文リスト
- Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Boosting Transformer's Robustness and Efficacy in PPG Signal Artifact
Detection with Self-Supervised Learning [0.0]
本研究は、自己教師付き学習(SSL)を用いて、このデータから潜伏した特徴を抽出することにより、豊富なラベル付きデータの未利用に対処する。
実験の結果,SSLはTransformerモデルの表現学習能力を大幅に向上させることがわかった。
このアプローチは、注釈付きデータがしばしば制限されるPICU環境において、より広範なアプリケーションに対して約束される。
論文 参考訳(メタデータ) (2024-01-02T04:00:48Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Remote Sensing Change Detection With Transformers Trained from Scratch [62.96911491252686]
トランスフォーマーベースの変更検出(CD)アプローチでは、大規模なイメージ分類でトレーニングされた事前トレーニングモデルを使用するか、別のCDデータセットで最初の事前トレーニングを頼りにしてから、ターゲットのベンチマークを微調整する。
我々は、4つの公開ベンチマークにおいて、スクラッチからトレーニングされながら最先端のパフォーマンスを実現するトランスフォーマーを用いたエンドツーエンドCDアプローチを開発した。
論文 参考訳(メタデータ) (2023-04-13T17:57:54Z) - Augmenting Transformer-Transducer Based Speaker Change Detection With
Token-Level Training Loss [15.304831835680847]
本稿では,Transformer-Transducer (T-T) に基づく話者変化検出(SCD) の性能を向上させる新しいトークンベースのトレーニング戦略を提案する。
学習データに話者が変化しているため、従来のT-TベースのSCDモデル損失は、準最適検出精度をもたらす。
論文 参考訳(メタデータ) (2022-11-11T21:09:58Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - Towards Data-Efficient Detection Transformers [77.43470797296906]
我々は、ほとんどの検出トランスフォーマーが、小さなデータセットで大きなパフォーマンス低下に悩まされていることを示す。
我々はデータ効率に影響を与える要因を、データ効率のRCNNから代表DETRへのステップバイステップ遷移によって実証的に分析する。
本稿では,よりリッチな監視とデータ効率向上を目的とした,シンプルながら効果的なラベル拡張手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T17:56:34Z) - Discriminative and Generative Transformer-based Models For Situation
Entity Classification [8.029049649310211]
我々は、状況エンティティ(SE)分類タスクを、利用可能なトレーニングデータの量に応じて再検討する。
変換器を用いた変分オートエンコーダを用いて文を低次元の潜在空間に符号化する。
論文 参考訳(メタデータ) (2021-09-15T17:07:07Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。