論文の概要: Reinforcement Learning of Large Language Models for Interpretable Credit Card Fraud Detection
- arxiv url: http://arxiv.org/abs/2601.05578v1
- Date: Fri, 09 Jan 2026 06:56:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.878931
- Title: Reinforcement Learning of Large Language Models for Interpretable Credit Card Fraud Detection
- Title(参考訳): クレジットカード不正検出のための大規模言語モデルの強化学習
- Authors: Cooper Lin, Yanting Zhang, Maohao Ran, Wei Xue, Hongwei Fan, Yibo Xu, Zhenglin Wan, Sirui Han, Yike Guo, Jun Song,
- Abstract要約: 本稿では,強化学習(Reinforcement Learning, RL)を用いて,不正検出タスクのための軽量言語モデルの訓練後処理を行う手法を提案する。
我々は,グループシーケンスポリシー最適化(GSPO)アルゴリズムとルールベースの報酬システムを組み合わせて,実生活におけるトランザクションデータセットに基づいて,さまざまなサイズの言語モデルを微調整する。
実験により,本手法の有効性を実証し,学習後の言語モデルを用いて,保持試験データに対するF1スコアの大幅な改善を実現した。
- 参考スコア(独自算出の注目度): 29.14690532256978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: E-commerce platforms and payment solution providers face increasingly sophisticated fraud schemes, ranging from identity theft and account takeovers to complex money laundering operations that exploit the speed and anonymity of digital transactions. However, despite their theoretical promise, the application of Large Language Models (LLMs) to fraud detection in real-world financial contexts remains largely unexploited, and their practical effectiveness in handling domain-specific e-commerce transaction data has yet to be empirically validated. To bridge this gap between conventional machine learning limitations and the untapped potential of LLMs in fraud detection, this paper proposes a novel approach that employs Reinforcement Learning (RL) to post-train lightweight language models specifically for fraud detection tasks using only raw transaction data. We utilize the Group Sequence Policy Optimization (GSPO) algorithm combined with a rule-based reward system to fine-tune language models of various sizes on a real-life transaction dataset provided by a Chinese global payment solution company. Through this reinforcement learning framework, the language models are encouraged to explore diverse trust and risk signals embedded within the textual transaction data, including patterns in customer information, shipping details, product descriptions, and order history. Our experimental results demonstrate the effectiveness of this approach, with post-trained language models achieving substantial F1-score improvements on held-out test data. Our findings demonstrate that the observed performance improvements are primarily attributable to the exploration mechanism inherent in reinforcement learning, which allows models to discover novel fraud indicators beyond those captured by traditional engineered features.
- Abstract(参考訳): 電子商取引プラットフォームと決済ソリューションプロバイダは、アイデンティティの盗難やアカウントの乗っ取りから、デジタル取引のスピードと匿名性を利用する複雑なマネーロンダリングまで、ますます高度な不正行為に直面している。
しかし,Large Language Models (LLMs) の現実の金融状況における不正検出への応用は,理論的な約束にもかかわらずほとんど明らかにされておらず,ドメイン固有の電子商取引データを扱う実践的有効性はまだ実証的に検証されていない。
本稿では、従来の機械学習の限界と不正検出におけるLLMの未解決可能性とのギャップを埋めるため、生のトランザクションデータのみを用いた不正検出タスクに特化して訓練後の軽量言語モデルに強化学習(Reinforcement Learning, RL)を用いる新しいアプローチを提案する。
グループシーケンスポリシー最適化(GSPO)アルゴリズムとルールベースの報酬システムを組み合わせて,中国のグローバル決済ソリューション企業が提供する実生活トランザクションデータセットに基づいて,さまざまなサイズの言語モデルを微調整する。
この強化学習フレームワークを通じて、言語モデルは、顧客情報、出荷の詳細、製品説明、注文履歴などのパターンを含む、テキストトランザクションデータに埋め込まれた多様な信頼とリスク信号の探索を奨励する。
実験により,本手法の有効性を実証し,学習後の言語モデルを用いて,保持試験データに対するF1スコアの大幅な改善を実現した。
本研究は, 従来の工学的特徴に捕えられた指標を超えた, 新規な不正指標の発見を可能にする強化学習に固有の探索機構に, 観測性能の改善が寄与することが示唆された。
関連論文リスト
- Does Machine Unlearning Truly Remove Knowledge? [80.83986295685128]
本研究では,3つのベンチマークデータセット,6つのアンラーニングアルゴリズム,および5つのプロンプトベースの監査手法からなる,アンラーニング評価のための総合的な監査フレームワークを提案する。
異なるアンラーニング戦略の有効性とロバスト性を評価する。
論文 参考訳(メタデータ) (2025-05-29T09:19:07Z) - AdvKT: An Adversarial Multi-Step Training Framework for Knowledge Tracing [64.79967583649407]
知識追跡(KT)は、学生の知識状態を監視し、質問シーケンスに対する反応をシミュレートする。
既存のKTモデルは通常、単一ステップのトレーニングパラダイムに従っており、大きなエラーの蓄積につながる。
本稿では,多段階KTタスクに着目した新しい知識追跡のための多段階学習フレームワーク(AdvKT)を提案する。
論文 参考訳(メタデータ) (2025-04-07T03:31:57Z) - Instance-Level Data-Use Auditing of Visual ML Models [49.862257986549885]
機械学習(ML)システムにおけるデータの不正使用に関する法的論争の傾向は、信頼性の高いデータ利用監査機構の必要性を浮き彫りにしている。
本稿では、データ所有者がMLモデルにおける個々のデータインスタンスの使用を監査できるように設計された、最初のプロアクティブな、インスタンスレベルのデータ利用監査手法を提案する。
論文 参考訳(メタデータ) (2025-03-28T13:28:57Z) - Unsupervised Detection of Fraudulent Transactions in E-commerce Using Contrastive Learning [9.199789653471269]
電子商取引プラットフォームは、詐欺の脅威が増えている。
従来の不正検出手法は、大量のラベル付きデータを必要とする教師付き学習に依存している。
そこで本研究では,SimCLRに基づく教師なしeコマース不正検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-24T16:14:16Z) - Deep Learning Approaches for Anti-Money Laundering on Mobile Transactions: Review, Framework, and Directions [51.43521977132062]
マネーロンダリング(英: Money laundering)は、不正資金の起源を隠蔽する金融犯罪である。
モバイル決済プラットフォームとスマートIoTデバイスの普及は、マネーロンダリング対策をかなり複雑にしている。
本稿では,AMLにおけるディープラーニングソリューションとその利用に関する課題について,包括的レビューを行う。
論文 参考訳(メタデータ) (2025-03-13T05:19:44Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - Utilizing GANs for Fraud Detection: Model Training with Synthetic
Transaction Data [0.0]
本稿では,GAN(Generative Adversarial Networks)の不正検出への応用について検討する。
GANは複雑なデータ分散のモデリングにおいて有望であり、異常検出のための効果的なツールである。
この研究は、ディープラーニング技術によるトランザクションセキュリティの強化におけるGANの可能性を実証している。
論文 参考訳(メタデータ) (2024-02-15T09:48:20Z) - Generative Pretraining at Scale: Transformer-Based Encoding of
Transactional Behavior for Fraud Detection [0.0]
我々のモデルはトークンの爆発に直面し、行動列を再構築し、トランザクションの振る舞いの微妙な理解を提供する。
我々は、中国最大のオンライン決済業者のセキュリティと有効性を活性化し、異常検出を強化するために、差分畳み込みアプローチを統合する。
論文 参考訳(メタデータ) (2023-12-22T03:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。