論文の概要: Towards a Foundation Purchasing Model: Pretrained Generative
Autoregression on Transaction Sequences
- arxiv url: http://arxiv.org/abs/2401.01641v2
- Date: Thu, 4 Jan 2024 16:52:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 12:24:06.964220
- Title: Towards a Foundation Purchasing Model: Pretrained Generative
Autoregression on Transaction Sequences
- Title(参考訳): ファンデーション購入モデルに向けて:トランザクションシーケンスの事前生成自己回帰
- Authors: Piotr Skalski, David Sutton, Stuart Burrell, Iker Perez, Jason Wong
- Abstract要約: 本稿では,金融取引の文脈的埋め込みを得るための生成事前学習手法を提案する。
さらに,510億の取引を含む180の発行銀行のデータコーパスを用いて,埋め込みモデルの大規模事前学習を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine learning models underpin many modern financial systems for use cases
such as fraud detection and churn prediction. Most are based on supervised
learning with hand-engineered features, which relies heavily on the
availability of labelled data. Large self-supervised generative models have
shown tremendous success in natural language processing and computer vision,
yet so far they haven't been adapted to multivariate time series of financial
transactions. In this paper, we present a generative pretraining method that
can be used to obtain contextualised embeddings of financial transactions.
Benchmarks on public datasets demonstrate that it outperforms state-of-the-art
self-supervised methods on a range of downstream tasks. We additionally perform
large-scale pretraining of an embedding model using a corpus of data from 180
issuing banks containing 5.1 billion transactions and apply it to the card
fraud detection problem on hold-out datasets. The embedding model significantly
improves value detection rate at high precision thresholds and transfers well
to out-of-domain distributions.
- Abstract(参考訳): 機械学習モデルは、不正検出やチャーン予測といったユースケースのために、多くの現代的な金融システムを支える。
その多くは、ラベル付きデータの可用性に大きく依存する手作業による教師あり学習に基づいている。
大規模な自己監督型生成モデルは、自然言語処理とコンピュータビジョンにおいて大きな成功を収めていますが、今のところ、多変量時系列の金融取引に適応していません。
本稿では,金融取引のコンテクスト化された埋め込みを得るための生成的事前学習手法を提案する。
公開データセットのベンチマークは、ダウンストリームタスクで最先端の自己教師ありメソッドよりも優れていることを示している。
さらに、510億の取引を含む180の発行銀行のデータコーパスを用いて埋め込みモデルの大規模事前学習を行い、ホールドアウトデータセットのカード不正検出問題に適用する。
埋め込みモデルは精度の高いしきい値における値検出率を大幅に改善し、領域外分布によく移行する。
関連論文リスト
- Generative Pretraining at Scale: Transformer-Based Encoding of
Transactional Behavior for Fraud Detection [0.0]
我々のモデルはトークンの爆発に直面し、行動列を再構築し、トランザクションの振る舞いの微妙な理解を提供する。
我々は、中国最大のオンライン決済業者のセキュリティと有効性を活性化し、異常検出を強化するために、差分畳み込みアプローチを統合する。
論文 参考訳(メタデータ) (2023-12-22T03:15:17Z) - Generative AI for End-to-End Limit Order Book Modelling: A Token-Level
Autoregressive Generative Model of Message Flow Using a Deep State Space
Network [7.54290390842336]
本稿では,トークン化制限順序帳(LOB)メッセージを生成するエンドツーエンドの自動回帰生成モデルを提案する。
NASDAQ の株式 LOB を用いて、メッセージデータのためのカスタムトークン化器を開発し、逐次桁の群をトークンに変換する。
結果は,低モデルパープレキシティによって証明されたように,データの分布を近似する上で有望な性能を示す。
論文 参考訳(メタデータ) (2023-08-23T09:37:22Z) - Provable Robustness for Streaming Models with a Sliding Window [51.85182389861261]
オンラインコンテンツレコメンデーションや株式市場分析のようなディープラーニングアプリケーションでは、モデルは過去のデータを使って予測を行う。
入力ストリーム上の固定サイズのスライディングウインドウを使用するモデルに対して、ロバスト性証明を導出する。
私たちの保証は、ストリーム全体の平均モデルパフォーマンスを保ち、ストリームサイズに依存しないので、大きなデータストリームに適しています。
論文 参考訳(メタデータ) (2023-03-28T21:02:35Z) - Two-stage Modeling for Prediction with Confidence [0.0]
分布シフト条件下でニューラルネットワークの性能を一般化することは困難である。
本稿では,分散シフト問題に対する新しい2段階モデルを提案する。
我々のモデルは、ほとんどのデータセットに対して信頼性の高い予測を提供することを示す。
論文 参考訳(メタデータ) (2022-09-19T08:48:07Z) - Credit card fraud detection - Classifier selection strategy [0.0]
アノテーション付きトランザクションのサンプルを使用して、機械学習の分類アルゴリズムは不正を検出することを学習する。
不正データセットは多種多様で 矛盾した特徴を示します
特徴的不均衡な不正検出データセットに対するデータ駆動型分類器選択手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T07:13:42Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - How Well Do Sparse Imagenet Models Transfer? [75.98123173154605]
転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"データセットで良い結果を得るために適応される古典的なパラダイムである。
本研究では、ImageNetデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)のコンテキストにおいて、この現象を詳細に調査する。
スパースモデルでは, 高空間であっても, 高密度モデルの転送性能にマッチしたり, 性能に優れることを示す。
論文 参考訳(メタデータ) (2021-11-26T11:58:51Z) - Evaluating data augmentation for financial time series classification [85.38479579398525]
2つの最先端ディープラーニングモデルを用いて,ストックデータセットに適用したいくつかの拡張手法を評価する。
比較的小さなデータセット拡張手法では、リスク調整された戻り値のパフォーマンスが最大400%向上する。
より大きなストックデータセット拡張メソッドでは、最大40%の改善が達成される。
論文 参考訳(メタデータ) (2020-10-28T17:53:57Z) - DoubleEnsemble: A New Ensemble Method Based on Sample Reweighting and
Feature Selection for Financial Data Analysis [22.035287788330663]
学習軌道に基づくサンプル再重み付けとシャッフルに基づく特徴選択を利用したアンサンブルフレームワークであるDoubleEnsembleを提案する。
我々のモデルは、複雑なパターンを抽出できる幅広い基盤モデルに適用でき、金融市場の予測に過度に適合し、不安定な問題を緩和できる。
論文 参考訳(メタデータ) (2020-10-03T02:57:10Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。