論文の概要: LLM-Enhanced Self-Evolving Reinforcement Learning for Multi-Step E-Commerce Payment Fraud Risk Detection
- arxiv url: http://arxiv.org/abs/2509.18719v1
- Date: Tue, 23 Sep 2025 07:07:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.742391
- Title: LLM-Enhanced Self-Evolving Reinforcement Learning for Multi-Step E-Commerce Payment Fraud Risk Detection
- Title(参考訳): LLMによる多段階Eコマース支払い不正リスク検出のための自己進化型強化学習
- Authors: Bo Qu, Zhurong Wang, Daisuke Yagi, Zhen Xu, Yang Zhao, Yinan Shan, Frank Zahradnik,
- Abstract要約: 本稿では,強化学習(RL)とLarge Language Models(LLM)を統合したeコマース支払い不正検出手法を提案する。
マルチステップのマルコフ決定プロセス(MDP)としてトランザクションリスクをフレーミングすることで、RLは複数の支払いステージにわたるリスク検出を最適化する。
提案手法では,LLMを用いて報酬関数を反復的に向上し,不正検出精度の向上とゼロショット能力の実証を行う。
- 参考スコア(独自算出の注目度): 6.440442825867506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a novel approach to e-commerce payment fraud detection by integrating reinforcement learning (RL) with Large Language Models (LLMs). By framing transaction risk as a multi-step Markov Decision Process (MDP), RL optimizes risk detection across multiple payment stages. Crafting effective reward functions, essential for RL model success, typically requires significant human expertise due to the complexity and variability in design. LLMs, with their advanced reasoning and coding capabilities, are well-suited to refine these functions, offering improvements over traditional methods. Our approach leverages LLMs to iteratively enhance reward functions, achieving better fraud detection accuracy and demonstrating zero-shot capability. Experiments with real-world data confirm the effectiveness, robustness, and resilience of our LLM-enhanced RL framework through long-term evaluations, underscoring the potential of LLMs in advancing industrial RL applications.
- Abstract(参考訳): 本稿では,強化学習(RL)とLarge Language Models(LLMs)を統合することで,電子商取引による不正行為の検出手法を提案する。
マルチステップのマルコフ決定プロセス(MDP)としてトランザクションリスクをフレーミングすることで、RLは複数の支払いステージにわたるリスク検出を最適化する。
RLモデルの成功に欠かせない効果的な報酬関数を作成するには、設計の複雑さと変動性のために、人間の専門知識が必要とされるのが普通である。
LLMは高度な推論とコーディング機能を備えており、これらの機能を洗練するのに適しており、従来の手法よりも改善されている。
提案手法では,LLMを用いて報酬関数を反復的に向上し,不正検出精度の向上とゼロショット能力の実証を行う。
実世界のデータを用いた実験により,LLM強化RLフレームワークの有効性,堅牢性,レジリエンスが長期評価によって確認され,産業用RLの進歩におけるLLMの可能性が強調された。
関連論文リスト
- Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。
交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。
目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T16:51:54Z) - SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。
LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。
本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。
我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文 参考訳(メタデータ) (2025-03-19T17:55:08Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Reinforcement Learning Enhanced LLMs: A Survey [45.57586245741664]
我々はRL強化大言語モデル(LLM)に関する最新の知識の体系的なレビューを行う。
具体的には、RLの基礎を詳述し、(2)人気のRL強化LLMを導入し、(3)広く使われている報酬モデルに基づくRL技術であるReinforcement Learning from Human Feedback(RLHF)とReinforcement Learning from AI Feedback(RLAIF)についてレビューする。
論文 参考訳(メタデータ) (2024-12-05T16:10:42Z) - Guiding Reinforcement Learning Using Uncertainty-Aware Large Language Models [1.2233495442213964]
大きな言語モデル(LLMs)は、RLサンプルの非効率を軽減し、人間のトレーナーを置き換える可能性のある代替手段を提供する。
LLMアドバイスの信頼性を高めるためにモンテカルロ・ドロップアウトを用いた校正誘導システムにより,この制限に対処する。
また、動的モデル平均エントロピーに基づく新しいRLポリシー形成手法を開発し、ガイダンスの不確実性に応じてLLMがRLポリシーに与える影響を調整する。
論文 参考訳(メタデータ) (2024-11-15T22:00:29Z) - Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse Reinforcement Learning [6.691759477350243]
Reinforcement Learning from Human Feedbackで訓練された大規模言語モデル(LLM)は、目覚ましい能力を示しているが、その基盤となる報酬関数や意思決定プロセスは不透明である。
本稿では, 逆強化学習(IRL)を用いて暗黙の報酬関数を復元することにより, LLMを解釈する新しい手法を提案する。
我々は,ヒトの嗜好を予測するために,最大85%の精度で報酬モデルを抽出し,様々な大きさの毒性に整合したLSMの実験を行った。
論文 参考訳(メタデータ) (2024-10-16T12:14:25Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Reinforcement Learning from LLM Feedback to Counteract Goal
Misgeneralization [0.0]
強化学習(RL)における目標誤一般化に対処する手法を提案する。
目標の誤一般化は、エージェントがその能力のアウト・オブ・ディストリビューションを維持しながら、意図したものよりもプロキシを追求する場合に発生する。
本研究では,大規模言語モデルを用いてRLエージェントを効率的に監視する方法を示す。
論文 参考訳(メタデータ) (2024-01-14T01:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。