論文の概要: Ungeneralizable Contextual Logistic Bandit in Credit Scoring
- arxiv url: http://arxiv.org/abs/2212.07632v1
- Date: Thu, 15 Dec 2022 06:36:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 16:17:30.212006
- Title: Ungeneralizable Contextual Logistic Bandit in Credit Scoring
- Title(参考訳): クレジットスコアリングにおける非一般化文脈ロジスティックバンディット
- Authors: Pojtanut Manopanjasiri and Kantapong Visantavarakul and Seksan
Kiatsupaibul
- Abstract要約: 信用スコアリングにおける強化学習の適用は、文脈ロジスティック・バンディットのユニークな設定を生み出した。
我々は,基礎となる特徴の複雑さによって増大する十分な時間ステップが与えられると,トンプソンサンプリングがグリーディアルゴリズムよりも優位であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The application of reinforcement learning in credit scoring has created a
unique setting for contextual logistic bandit that does not conform to the
usual exploration-exploitation tradeoff but rather favors exploration-free
algorithms. Through sufficient randomness in a pool of observable contexts, the
reinforcement learning agent can simultaneously exploit an action with the
highest reward while still learning more about the structure governing that
environment. Thus, it is the case that greedy algorithms consistently
outperform algorithms with efficient exploration, such as Thompson sampling.
However, in a more pragmatic scenario in credit scoring, lenders can, to a
degree, classify each borrower as a separate group, and learning about the
characteristics of each group does not infer any information to another group.
Through extensive simulations, we show that Thompson sampling dominates over
greedy algorithms given enough timesteps which increase with the complexity of
underlying features.
- Abstract(参考訳): クレジットスコアリングにおける強化学習の適用は、通常の探索-探索のトレードオフに準拠せず、探索-フリーなアルゴリズムを好む文脈ロジスティックなバンディットのユニークな設定を生み出した。
観測可能なコンテキストのプールにおける十分なランダム性により、強化学習エージェントは、その環境を管理する構造についてより深く学びながら、最も報酬の高いアクションを同時に活用することができる。
したがって、グリーディアルゴリズムは、トンプソンサンプリングのような効率的な探索によってアルゴリズムを一貫して上回る。
しかし、クレジットスコアリングのより実践的なシナリオでは、貸し手はある程度、それぞれの借り手を別のグループに分類し、各グループの特性について学ぶことは、他のグループに何の情報も推論しない。
広範なシミュレーションにより、基礎となる特徴の複雑さによって増大する十分な時間ステップが与えられると、トンプソンサンプリングがグリーディアルゴリズムよりも優位であることを示す。
関連論文リスト
- Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Model Generation with Provable Coverability for Offline Reinforcement
Learning [14.333861814143718]
動的対応ポリシーによるオフライン最適化は、ポリシー学習とアウト・オブ・ディストリビューションの一般化の新しい視点を提供する。
しかし、オフライン環境での制限のため、学習したモデルは実際のダイナミクスを十分に模倣することができず、信頼性の高いアウト・オブ・ディストリビューション探索をサポートできなかった。
本研究では,実力学のカバレッジを最適化するモデルを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T08:34:09Z) - Discriminator Augmented Model-Based Reinforcement Learning [47.094522301093775]
学習したモデルが不正確であり、計画が損なわれ、パフォーマンスが悪くなるのは実際には一般的です。
本稿では,真の力学と学習力学の相違を考慮に入れた重要サンプリングフレームワークによる計画の改善を目的とする。
論文 参考訳(メタデータ) (2021-03-24T06:01:55Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Bridging Imagination and Reality for Model-Based Deep Reinforcement
Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。
虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。
提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T03:22:01Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - Stealing Deep Reinforcement Learning Models for Fun and Profit [33.64948529132546]
本稿では,Deep Reinforcement Learning (DRL) に対する最初のモデル抽出攻撃を提案する。
これにより、外部の敵は環境との相互作用からのみブラックボックスDRLモデルを正確に回復することができる。
論文 参考訳(メタデータ) (2020-06-09T03:24:35Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。