論文の概要: Optimizing Credit Limit Adjustments Under Adversarial Goals Using
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.15585v1
- Date: Tue, 27 Jun 2023 16:10:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 12:42:43.907434
- Title: Optimizing Credit Limit Adjustments Under Adversarial Goals Using
Reinforcement Learning
- Title(参考訳): 強化学習を用いた相手ゴールによる信用限度調整の最適化
- Authors: Sherly Alfonso-S\'anchez, Jes\'us Solano, Alejandro Correa-Bahnsen,
Kristina P. Sendova, and Cristi\'an Bravo
- Abstract要約: 強化学習は、決定論的環境を持つビデオゲームからポートフォリオや運用管理まで、多くの問題で研究されてきた。
本研究では,強化学習技術を用いて最適なクレジットカード制限調整策の発見と自動化を試みた。
- 参考スコア(独自算出の注目度): 60.685955593308584
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning has been explored for many problems, from video games
with deterministic environments to portfolio and operations management in which
scenarios are stochastic; however, there have been few attempts to test these
methods in banking problems. In this study, we sought to find and automatize an
optimal credit card limit adjustment policy by employing reinforcement learning
techniques. In particular, because of the historical data available, we
considered two possible actions per customer, namely increasing or maintaining
an individual's current credit limit. To find this policy, we first formulated
this decision-making question as an optimization problem in which the expected
profit was maximized; therefore, we balanced two adversarial goals: maximizing
the portfolio's revenue and minimizing the portfolio's provisions. Second,
given the particularities of our problem, we used an offline learning strategy
to simulate the impact of the action based on historical data from a super-app
(i.e., a mobile application that offers various services from goods deliveries
to financial products) in Latin America to train our reinforcement learning
agent. Our results show that a Double Q-learning agent with optimized
hyperparameters can outperform other strategies and generate a non-trivial
optimal policy reflecting the complex nature of this decision. Our research not
only establishes a conceptual structure for applying reinforcement learning
framework to credit limit adjustment, presenting an objective technique to make
these decisions primarily based on data-driven methods rather than relying only
on expert-driven systems but also provides insights into the effect of
alternative data usage for determining these modifications.
- Abstract(参考訳): 強化学習は、決定論的環境を持つビデオゲームから、シナリオが確率的であるポートフォリオや運用管理まで、多くの問題に対して研究されてきたが、銀行問題においてこれらの手法をテストする試みは少ない。
本研究では,強化学習技術を用いて最適なクレジットカード制限調整策の発見と自動化を試みた。
特に、利用可能な履歴データのために、顧客ごとの2つの可能なアクション、すなわち、個人の現在のクレジット制限を増加または維持することを検討した。
この方針を見出すため、まずこの意思決定問題を、期待利益を最大化する最適化問題として定式化し、ポートフォリオ収益の最大化とポートフォリオ条項の最小化という2つの逆の目標をバランスさせた。
第2に、問題の特異性を考慮して、我々は、ラテンアメリカのスーパーアプリ(商品配達から金融商品までさまざまなサービスを提供するモバイルアプリケーション)からの履歴データに基づくアクションの影響をシミュレートするために、オフライン学習戦略を使用し、強化学習エージェントを訓練しました。
その結果、最適化されたハイパーパラメータを持つダブルq学習エージェントは、他の戦略よりも優れており、この決定の複雑な性質を反映した非自明な最適ポリシーを生成することができる。
本研究は、信頼限度調整に強化学習フレームワークを適用するための概念的構造を確立し、専門家主導のシステムにのみ依存するのではなく、主にデータ駆動方式に基づいて意思決定を行う客観的手法を提案するとともに、これらの修正を決定するための代替データ利用の効果に関する洞察を提供する。
関連論文リスト
- Optimal Execution with Reinforcement Learning [0.4972323953932129]
本研究では,強化学習による最適実行戦略の開発について検討する。
本稿では,独自のMDPの定式化を行い,提案手法の結果を確認し,標準実行戦略に対して性能をベンチマークする。
論文 参考訳(メタデータ) (2024-11-10T08:21:03Z) - Learning to Cover: Online Learning and Optimization with Irreversible Decisions [50.5775508521174]
後悔は$Thetaleft(mfrac12cdotfrac11-2-Tright)$で半直線的に成長するので、指数関数的に$Theta(sqrtm)$に収束する。
これらの調査結果は、限定的なオンライン学習と最適化の利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-06-20T23:00:25Z) - Leaving the Nest: Going Beyond Local Loss Functions for
Predict-Then-Optimize [57.22851616806617]
本手法は,文献から得られた4つの領域において,最先端の成果が得られることを示す。
提案手法は, 局所性仮定が破られた場合, 既存手法よりも200%近く性能が向上する。
論文 参考訳(メタデータ) (2023-05-26T11:17:45Z) - Re-thinking Data Availablity Attacks Against Deep Neural Networks [53.64624167867274]
本稿では、未学習例の概念を再検討し、既存のロバストな誤り最小化ノイズが不正確な最適化目標であることを示す。
本稿では,計算時間要件の低減による保護性能の向上を図った新しい最適化パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-18T04:03:51Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Constrained Policy Optimization for Controlled Self-Learning in
Conversational AI Systems [18.546197100318693]
ユーザ定義制約により、個々のドメインに対するきめ細かい探索ターゲットをサポートするスケーラブルなフレームワークを導入する。
この問題に対処するために,スケーラブルで実用的なメタ段階学習手法を提案する。
我々は、現実的な制約ベンチマークのセット上で、現実世界の会話型AIのデータを使用して広範な実験を行う。
論文 参考訳(メタデータ) (2022-09-17T23:44:13Z) - Off-Policy Optimization of Portfolio Allocation Policies under
Constraints [0.8848340429852071]
財務の動的ポートフォリオ最適化問題には、投資家の好みとリスクによって、さまざまな制約に従う学習ポリシーが頻繁に必要です。
本研究の目的は, 逐次的意思決定枠組み内でアロケーションポリシを見つけることであり, (a) 適用済みのポリシに基づいて収集されたデータを使用すること, (b) 所望の制約を課すこと, (b) ほぼ最適ポリシーをこのデータで計算することである。
論文 参考訳(メタデータ) (2020-12-21T22:22:04Z) - Toward Optimal Probabilistic Active Learning Using a Bayesian Approach [4.380488084997317]
アクティブラーニングは、コストの高いラベリングリソースを効率よく効果的に割り当てることで、ラベリングコストを削減することを目的としている。
提案したモデルにおける既存の選択戦略を再構築することにより、どの側面が現在の最先端に包含されていないかを説明することができる。
論文 参考訳(メタデータ) (2020-06-02T15:59:42Z) - Interpretable Personalization via Policy Learning with Linear Decision
Boundaries [14.817218449140338]
商品・サービスの効果的なパーソナライズは、企業が収益を改善し競争力を維持するための中核事業となっている。
本稿では政策学習のレンズを通してパーソナライズ問題を考察する。
本稿では、線形決定境界を持つポリシーのクラスを提案し、因果推論のツールを用いた学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-17T05:48:27Z) - Cost-Sensitive Portfolio Selection via Deep Reinforcement Learning [100.73223416589596]
深層強化学習を用いたコスト依存型ポートフォリオ選択手法を提案する。
具体的には、価格系列パターンと資産相関の両方を抽出するために、新しい2ストリームポートフォリオポリシーネットワークを考案した。
蓄積したリターンを最大化し、強化学習によるコストの両立を抑えるため、新たなコスト感受性報酬関数が開発された。
論文 参考訳(メタデータ) (2020-03-06T06:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。