論文の概要: Towards a Foundation Purchasing Model: Pretrained Generative
Autoregression on Transaction Sequences
- arxiv url: http://arxiv.org/abs/2401.01641v2
- Date: Thu, 4 Jan 2024 16:52:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 12:24:06.964220
- Title: Towards a Foundation Purchasing Model: Pretrained Generative
Autoregression on Transaction Sequences
- Title(参考訳): ファンデーション購入モデルに向けて:トランザクションシーケンスの事前生成自己回帰
- Authors: Piotr Skalski, David Sutton, Stuart Burrell, Iker Perez, Jason Wong
- Abstract要約: 本稿では,金融取引の文脈的埋め込みを得るための生成事前学習手法を提案する。
さらに,510億の取引を含む180の発行銀行のデータコーパスを用いて,埋め込みモデルの大規模事前学習を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine learning models underpin many modern financial systems for use cases
such as fraud detection and churn prediction. Most are based on supervised
learning with hand-engineered features, which relies heavily on the
availability of labelled data. Large self-supervised generative models have
shown tremendous success in natural language processing and computer vision,
yet so far they haven't been adapted to multivariate time series of financial
transactions. In this paper, we present a generative pretraining method that
can be used to obtain contextualised embeddings of financial transactions.
Benchmarks on public datasets demonstrate that it outperforms state-of-the-art
self-supervised methods on a range of downstream tasks. We additionally perform
large-scale pretraining of an embedding model using a corpus of data from 180
issuing banks containing 5.1 billion transactions and apply it to the card
fraud detection problem on hold-out datasets. The embedding model significantly
improves value detection rate at high precision thresholds and transfers well
to out-of-domain distributions.
- Abstract(参考訳): 機械学習モデルは、不正検出やチャーン予測といったユースケースのために、多くの現代的な金融システムを支える。
その多くは、ラベル付きデータの可用性に大きく依存する手作業による教師あり学習に基づいている。
大規模な自己監督型生成モデルは、自然言語処理とコンピュータビジョンにおいて大きな成功を収めていますが、今のところ、多変量時系列の金融取引に適応していません。
本稿では,金融取引のコンテクスト化された埋め込みを得るための生成的事前学習手法を提案する。
公開データセットのベンチマークは、ダウンストリームタスクで最先端の自己教師ありメソッドよりも優れていることを示している。
さらに、510億の取引を含む180の発行銀行のデータコーパスを用いて埋め込みモデルの大規模事前学習を行い、ホールドアウトデータセットのカード不正検出問題に適用する。
埋め込みモデルは精度の高いしきい値における値検出率を大幅に改善し、領域外分布によく移行する。
関連論文リスト
- Credit Card Fraud Detection Using Advanced Transformer Model [15.34892016767672]
本研究は、より堅牢で正確な不正検出のための最新のTransformerモデルの革新的な応用に焦点を当てる。
データソースを慎重に処理し、データセットのバランスをとり、データの分散性の問題に対処しました。
我々は、SVM(Support Vector Machine)、ランダムフォレスト(Random Forest)、ニューラルネットワーク(Neural Network)、ロジスティック回帰(Logistic Regression)など、広く採用されているいくつかのモデルと性能比較を行った。
論文 参考訳(メタデータ) (2024-06-06T04:12:57Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Generative AI for End-to-End Limit Order Book Modelling: A Token-Level
Autoregressive Generative Model of Message Flow Using a Deep State Space
Network [7.54290390842336]
本稿では,トークン化制限順序帳(LOB)メッセージを生成するエンドツーエンドの自動回帰生成モデルを提案する。
NASDAQ の株式 LOB を用いて、メッセージデータのためのカスタムトークン化器を開発し、逐次桁の群をトークンに変換する。
結果は,低モデルパープレキシティによって証明されたように,データの分布を近似する上で有望な性能を示す。
論文 参考訳(メタデータ) (2023-08-23T09:37:22Z) - Two-stage Modeling for Prediction with Confidence [0.0]
分布シフト条件下でニューラルネットワークの性能を一般化することは困難である。
本稿では,分散シフト問題に対する新しい2段階モデルを提案する。
我々のモデルは、ほとんどのデータセットに対して信頼性の高い予測を提供することを示す。
論文 参考訳(メタデータ) (2022-09-19T08:48:07Z) - Credit card fraud detection - Classifier selection strategy [0.0]
アノテーション付きトランザクションのサンプルを使用して、機械学習の分類アルゴリズムは不正を検出することを学習する。
不正データセットは多種多様で 矛盾した特徴を示します
特徴的不均衡な不正検出データセットに対するデータ駆動型分類器選択手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T07:13:42Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - How Well Do Sparse Imagenet Models Transfer? [75.98123173154605]
転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"データセットで良い結果を得るために適応される古典的なパラダイムである。
本研究では、ImageNetデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)のコンテキストにおいて、この現象を詳細に調査する。
スパースモデルでは, 高空間であっても, 高密度モデルの転送性能にマッチしたり, 性能に優れることを示す。
論文 参考訳(メタデータ) (2021-11-26T11:58:51Z) - Evaluating data augmentation for financial time series classification [85.38479579398525]
2つの最先端ディープラーニングモデルを用いて,ストックデータセットに適用したいくつかの拡張手法を評価する。
比較的小さなデータセット拡張手法では、リスク調整された戻り値のパフォーマンスが最大400%向上する。
より大きなストックデータセット拡張メソッドでは、最大40%の改善が達成される。
論文 参考訳(メタデータ) (2020-10-28T17:53:57Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。