論文の概要: Evaluating Transfer Learning Methods on Real-World Data Streams: A Case Study in Financial Fraud Detection
- arxiv url: http://arxiv.org/abs/2508.02702v1
- Date: Tue, 29 Jul 2025 14:12:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.565091
- Title: Evaluating Transfer Learning Methods on Real-World Data Streams: A Case Study in Financial Fraud Detection
- Title(参考訳): 実世界のデータストリームにおける伝達学習手法の評価:財務的フラッド検出を事例として
- Authors: Ricardo Ribeiro Pereira, Jacopo Bono, Hugo Ferreira, Pedro Ribeiro, Carlos Soares, Pedro Bizarro,
- Abstract要約: 対象領域の利用可能なデータが限られている場合、トランスファーラーニング(TL)メソッドを使用して、関連するデータリッチドメインのモデルを開発することができる。
本稿では、時間とともに様々なデータ可用性シナリオをシミュレートするデータ操作フレームワークを提案する。
本稿では,カード支払データセットのプロプライエタリな実世界スイートをケーススタディとして,提案フレームワークの有用性を実証する。
- 参考スコア(独自算出の注目度): 4.689506737427387
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: When the available data for a target domain is limited, transfer learning (TL) methods can be used to develop models on related data-rich domains, before deploying them on the target domain. However, these TL methods are typically designed with specific, static assumptions on the amount of available labeled and unlabeled target data. This is in contrast with many real world applications, where the availability of data and corresponding labels varies over time. Since the evaluation of the TL methods is typically also performed under the same static data availability assumptions, this would lead to unrealistic expectations concerning their performance in real world settings. To support a more realistic evaluation and comparison of TL algorithms and models, we propose a data manipulation framework that (1) simulates varying data availability scenarios over time, (2) creates multiple domains through resampling of a given dataset and (3) introduces inter-domain variability by applying realistic domain transformations, e.g., creating a variety of potentially time-dependent covariate and concept shifts. These capabilities enable simulation of a large number of realistic variants of the experiments, in turn providing more information about the potential behavior of algorithms when deployed in dynamic settings. We demonstrate the usefulness of the proposed framework by performing a case study on a proprietary real-world suite of card payment datasets. Given the confidential nature of the case study, we also illustrate the use of the framework on the publicly available Bank Account Fraud (BAF) dataset. By providing a methodology for evaluating TL methods over time and in realistic data availability scenarios, our framework facilitates understanding of the behavior of models and algorithms. This leads to better decision making when deploying models for new domains in real-world environments.
- Abstract(参考訳): 対象ドメインの利用可能なデータが限られている場合、Transfer Learning(TL)メソッドを使用して、対象ドメインにデプロイする前に、関連するデータリッチドメインのモデルを開発することができる。
しかし、これらのTL法は通常、利用可能なラベル付きおよびラベルなしのターゲットデータの量に対して、特定の静的な仮定で設計される。
これは、データと対応するラベルの可用性が時間とともに変化する、多くの現実世界のアプリケーションとは対照的である。
TL法の評価は、通常、同じ静的データ可用性仮定の下でも行われるため、現実の環境での性能に対する非現実的な期待がもたらされる。
TLアルゴリズムとモデルのより現実的な評価と比較を支援するために、(1)時間とともに様々なデータ可用性シナリオをシミュレートし、(2)与えられたデータセットを再サンプリングして複数のドメインを生成し、(3)現実的なドメイン変換を適用し、例えば、時間依存の共変量や概念シフトを作成することでドメイン間の可変性を導入するデータ操作フレームワークを提案する。
これらの能力により、実験の多くの現実的なバリエーションのシミュレーションが可能になり、動的設定にデプロイされたアルゴリズムの潜在的な振る舞いについてより多くの情報を提供する。
本稿では,カード支払データセットのプロプライエタリな実世界スイートをケーススタディとして,提案フレームワークの有用性を実証する。
ケーススタディの秘密性を考えると、BAF(Bank Account Fraud)データセット上でのフレームワークの使用についても説明します。
我々のフレームワークは,時間とともに,現実的なデータ可用性シナリオにおいてTLメソッドを評価する方法論を提供することで,モデルやアルゴリズムの振る舞いの理解を容易にする。
これにより、現実世界の環境で新しいドメインのモデルをデプロイする際の意思決定が向上する。
関連論文リスト
- Model-Free Counterfactual Subset Selection at Scale [11.646993755965006]
ストリーミングの説明は、データセット全体の永続的なストレージを必要とせずに、適応的でリアルタイムな洞察を提供する。
我々のアルゴリズムはストリーミング設定において効率よく動作し、アイテムごとの更新複雑性を$O(log k)$に維持する。
実世界のデータセットと合成データセットの両方に対する実証的な評価は、ベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-02-12T11:48:15Z) - Generate to Discriminate: Expert Routing for Continual Learning [59.71853576559306]
Generate to Discriminate (G2D) は、合成データを利用してドメイン識別器を訓練する連続学習手法である。
我々は、G2Dが視覚と言語の両方におけるタスクにおいて、競争力のあるドメイン・インクリメンタル・ラーニング手法より優れていることを観察する。
論文 参考訳(メタデータ) (2024-12-22T13:16:28Z) - Testing Generalizability in Causal Inference [3.547529079746247]
機械学習アルゴリズムの一般化性を統計的に評価するための公式な手続きは存在しない。
本研究では,高次元因果推論モデルの一般化可能性を統計的に評価するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-05T11:44:00Z) - SKADA-Bench: Benchmarking Unsupervised Domain Adaptation Methods with Realistic Validation On Diverse Modalities [55.87169702896249]
Unsupervised Domain Adaptation (DA) は、ラベル付きソースドメインでトレーニングされたモデルを適用して、ラベルなしのターゲットドメインでデータ分散シフトをうまく実行する。
本稿では,再重み付け,マッピング,部分空間アライメントなど,既存の浅層アルゴリズムの完全かつ公平な評価を行う。
本ベンチマークでは,現実的な検証の重要性を強調し,現実的なアプリケーションに対する実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-07-16T12:52:29Z) - Cross-user activity recognition via temporal relation optimal transport [0.0]
人間の活動認識(HAR)に関する現在の研究は、トレーニングデータとテストデータが同一の分布から抽出され、一般化されたモデルを達成することを前提としている。
本稿では,時間的関係を利用した時間的関係最適輸送法(TROT)を提案し,$の仮定を緩和する。
論文 参考訳(メタデータ) (2024-03-12T22:33:56Z) - SALUDA: Surface-based Automotive Lidar Unsupervised Domain Adaptation [62.889835139583965]
我々は、ソースデータとターゲットデータに基づいて、暗黙の基盤となる表面表現を同時に学習する教師なし補助タスクを導入する。
両方のドメインが同じ遅延表現を共有しているため、モデルは2つのデータソース間の不一致を許容せざるを得ない。
実験の結果,本手法は実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-
論文 参考訳(メタデータ) (2023-04-06T17:36:23Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - TAL: Two-stream Adaptive Learning for Generalizable Person
Re-identification [115.31432027711202]
我々は、ドメイン固有性とドメイン不変性の両方が、re-idモデルの一般化能力の向上に不可欠であると主張する。
これら2種類の情報を同時にモデル化するために,2ストリーム適応学習 (TAL) を命名した。
我々のフレームワークは、単一ソースとマルチソースの両方のドメイン一般化タスクに適用できる。
論文 参考訳(メタデータ) (2021-11-29T01:27:42Z) - Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。
本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。
提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-25T14:33:33Z) - Machine Learning for Temporal Data in Finance: Challenges and
Opportunities [0.0]
一時データは金融サービス(FS)業界で広く使われている。
しかし、機械学習の取り組みは、これらのデータの時間的豊かさを説明できないことが多い。
論文 参考訳(メタデータ) (2020-09-11T19:39:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。