論文の概要: Benchmarking Offline Reinforcement Learning Algorithms for E-Commerce
Order Fraud Evaluation
- arxiv url: http://arxiv.org/abs/2212.02620v1
- Date: Mon, 5 Dec 2022 22:10:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 17:27:36.685095
- Title: Benchmarking Offline Reinforcement Learning Algorithms for E-Commerce
Order Fraud Evaluation
- Title(参考訳): E-Commerce Order Fraud Evaluationのためのオフライン強化学習アルゴリズムのベンチマーク
- Authors: Soysal Degirmenci, Chris Jones
- Abstract要約: 詐欺の金銭的損失と長期顧客満足度の両方を考慮したシステムを提案する。
オフラインRL法はSimStoreの従来のバイナリ分類法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.571097144710995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Amazon and other e-commerce sites must employ mechanisms to protect their
millions of customers from fraud, such as unauthorized use of credit cards. One
such mechanism is order fraud evaluation, where systems evaluate orders for
fraud risk, and either "pass" the order, or take an action to mitigate high
risk. Order fraud evaluation systems typically use binary classification models
that distinguish fraudulent and legitimate orders, to assess risk and take
action. We seek to devise a system that considers both financial losses of
fraud and long-term customer satisfaction, which may be impaired when incorrect
actions are applied to legitimate customers. We propose that taking actions to
optimize long-term impact can be formulated as a Reinforcement Learning (RL)
problem. Standard RL methods require online interaction with an environment to
learn, but this is not desirable in high-stakes applications like order fraud
evaluation. Offline RL algorithms learn from logged data collected from the
environment, without the need for online interaction, making them suitable for
our use case. We show that offline RL methods outperform traditional binary
classification solutions in SimStore, a simplified e-commerce simulation that
incorporates order fraud risk. We also propose a novel approach to training
offline RL policies that adds a new loss term during training, to better align
policy exploration with taking correct actions.
- Abstract(参考訳): amazonなどのeコマースサイトは、数百万の顧客を不正なクレジットカード使用などの不正行為から守るメカニズムを使わなければならない。
そのようなメカニズムの1つは注文不正評価であり、システムは不正リスクの注文を評価し、注文を「通過」するか、高いリスクを緩和するために行動を取る。
命令不正評価システムは通常、不正と合法の命令を区別する二項分類モデルを使用してリスクを評価し、行動を起こす。
我々は,不正行為を正当な顧客に適用した場合に損なわれる可能性のある不正行為の金銭的損失と長期顧客満足度の両方を考慮するシステムを考案する。
長期的影響を最適化するための行動を取ることは、強化学習(RL)問題として定式化できる。
標準のRL手法は学習する環境とのオンラインインタラクションを必要とするが、注文詐欺評価のような高度なアプリケーションでは望ましくない。
オフラインのrlアルゴリズムは、オンラインインタラクションを必要とせずに、環境から収集したログデータから学習します。
オフラインのrlメソッドは、注文詐欺リスクを組み込んだ簡単なeコマースシミュレーションであるsimstoreの従来のバイナリ分類ソリューションよりも優れています。
また、オフラインのRLポリシーをトレーニングする新たなアプローチを提案し、トレーニング中に新たな損失項を追加し、適切な行動を取ることでポリシー探索をより良く整合させる。
関連論文リスト
- Bayesian Design Principles for Offline-to-Online Reinforcement Learning [50.97583504192167]
オフラインからオンラインへの微調整は、探索にコストがかかる、あるいは安全でない、現実世界のアプリケーションにとって極めて重要です。
本稿では,オフラインからオフラインまでの微調整のジレンマに対処する:エージェントが悲観的のままであれば,より良いポリシーを習得できないかもしれないが,楽観的になった場合,性能が突然低下する可能性がある。
このようなジレンマを解決するにはベイズ設計の原則が不可欠であることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:31:07Z) - Transaction Fraud Detection via an Adaptive Graph Neural Network [64.9428588496749]
本稿では,アダプティブサンプリングとアグリゲーションに基づくグラフニューラルネットワーク(ASA-GNN)を提案する。
ノイズの多いノードをフィルタリングし、不正なノードを補うために、隣のサンプリング戦略を実行する。
3つのファイナンシャルデータセットの実験により,提案手法のASA-GNNは最先端のデータセットよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-07-11T07:48:39Z) - Towards Generalizable Reinforcement Learning for Trade Execution [25.199192981742744]
市場データからよりスマートなポリシーを学ぶために、貿易実行の最適化に強化学習(RL)が適用されている。
既存のRLメソッドの多くは、実際のデプロイを妨げている、かなりの過度なオーバーフィッティングを示す。
本稿では,事前知識の活用やエンドツーエンドの手法により,コンテキストのコンパクトな表現を学習し,過度に適合する問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-05-12T02:41:11Z) - Application of Deep Reinforcement Learning to Payment Fraud [0.0]
典型的な不正検出システムは、詐欺リコール率の最大化に重点を置く標準的な教師付き学習手法を用いる。
このような定式化は準最適解につながると我々は主張する。
我々は、報酬関数の形でモデル内に実用性を含めることで、不正検出を逐次決定問題として定式化する。
論文 参考訳(メタデータ) (2021-12-08T11:30:53Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。
提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。
追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2021-07-08T17:01:32Z) - Adaptive Stress Testing for Adversarial Learning in a Financial
Environment [0.0]
本研究では,過去の決済取引データに基づくクレジットカード不正検出モデルを開発する。
適応ストレステスト(Adaptive Stress Testing)として知られる強化学習モデルを適用し、エージェントを訓練してシステム障害への最も可能性の高い経路を見つける。
論文 参考訳(メタデータ) (2021-07-08T03:19:40Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Deep Q-Network-based Adaptive Alert Threshold Selection Policy for
Payment Fraud Systems in Retail Banking [9.13755431537592]
本稿では,不正警報システムのためのしきい値選択ポリシーを提案する。
提案手法は、しきい値選択を逐次決定問題として定式化し、ディープQネットワークに基づく強化学習を用いる。
実験結果から, この適応手法は, 不正な損失を低減し, 警報システムの動作効率を向上させることにより, 現在の静的解よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-10-21T15:10:57Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - ARMS: Automated rules management system for fraud detection [1.7499351967216341]
オンライン不正検出は、入ってくる取引を合法か不正かのどちらかにリアルタイムで分類する。
現代の不正検出システムは、人間の専門家によって定義された機械学習モデルとルールで構成されている。
本稿では,個々のルールの貢献度を評価する自動ルール管理システムARMSを提案し,検索とユーザ定義の損失関数を用いたアクティブなルールセットを最適化する。
論文 参考訳(メタデータ) (2020-02-14T15:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。