論文の概要: Ungeneralizable Contextual Logistic Bandit in Credit Scoring
- arxiv url: http://arxiv.org/abs/2212.07632v1
- Date: Thu, 15 Dec 2022 06:36:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 16:17:30.212006
- Title: Ungeneralizable Contextual Logistic Bandit in Credit Scoring
- Title(参考訳): クレジットスコアリングにおける非一般化文脈ロジスティックバンディット
- Authors: Pojtanut Manopanjasiri and Kantapong Visantavarakul and Seksan
Kiatsupaibul
- Abstract要約: 信用スコアリングにおける強化学習の適用は、文脈ロジスティック・バンディットのユニークな設定を生み出した。
我々は,基礎となる特徴の複雑さによって増大する十分な時間ステップが与えられると,トンプソンサンプリングがグリーディアルゴリズムよりも優位であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The application of reinforcement learning in credit scoring has created a
unique setting for contextual logistic bandit that does not conform to the
usual exploration-exploitation tradeoff but rather favors exploration-free
algorithms. Through sufficient randomness in a pool of observable contexts, the
reinforcement learning agent can simultaneously exploit an action with the
highest reward while still learning more about the structure governing that
environment. Thus, it is the case that greedy algorithms consistently
outperform algorithms with efficient exploration, such as Thompson sampling.
However, in a more pragmatic scenario in credit scoring, lenders can, to a
degree, classify each borrower as a separate group, and learning about the
characteristics of each group does not infer any information to another group.
Through extensive simulations, we show that Thompson sampling dominates over
greedy algorithms given enough timesteps which increase with the complexity of
underlying features.
- Abstract(参考訳): クレジットスコアリングにおける強化学習の適用は、通常の探索-探索のトレードオフに準拠せず、探索-フリーなアルゴリズムを好む文脈ロジスティックなバンディットのユニークな設定を生み出した。
観測可能なコンテキストのプールにおける十分なランダム性により、強化学習エージェントは、その環境を管理する構造についてより深く学びながら、最も報酬の高いアクションを同時に活用することができる。
したがって、グリーディアルゴリズムは、トンプソンサンプリングのような効率的な探索によってアルゴリズムを一貫して上回る。
しかし、クレジットスコアリングのより実践的なシナリオでは、貸し手はある程度、それぞれの借り手を別のグループに分類し、各グループの特性について学ぶことは、他のグループに何の情報も推論しない。
広範なシミュレーションにより、基礎となる特徴の複雑さによって増大する十分な時間ステップが与えられると、トンプソンサンプリングがグリーディアルゴリズムよりも優位であることを示す。
関連論文リスト
- Vintix: Action Model via In-Context Reinforcement Learning [72.65703565352769]
In-context reinforcement learning を通じて振る舞いを学習できる固定されたクロスドメインモデルを導入することで ICRL のスケールアップに向けた第一歩を提示する。
ICRLを促進するために設計されたフレームワークであるアルゴリズム蒸留は、多目的な作用モデルを構築するために、専門家蒸留に代わる魅力的な、競争力のある代替手段を提供することを示した。
論文 参考訳(メタデータ) (2025-01-31T18:57:08Z) - Towards General-Purpose Model-Free Reinforcement Learning [40.973429772093155]
強化学習(RL)は、ほぼ普遍的な問題解決のためのフレームワークを約束する。
実際には、RLアルゴリズムは特定のベンチマークに合わせて調整されることが多い。
そこで本研究では,ドメインと問題設定の多様なクラスに対処可能なモデルフリーの深部RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-27T15:36:37Z) - Learning to Generate Research Idea with Dynamic Control [21.30777644522451]
大規模言語モデル (LLM) は仮説や研究のアイデアを生み出すことを約束している。
SFT(Supervised Fine-Tuning)とRL(Reinforcement Learning)を組み合わせた2段階のアプローチによる新しいフレームワークを提案する。
本フレームワークは, 新規性, 実現可能性, 有効性の間のトレードオフを動的にナビゲートすることで, 高品質な成果を達成し, 研究アイデアに対するバランスのとれたアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-19T08:28:18Z) - Are Expressive Models Truly Necessary for Offline RL? [18.425797519857113]
シークエンシャルモデリングでは、適切なポリシー性能を確保するために、軌道データの長い地平線を越えて正確なダイナミクスを捉える必要がある。
浅層2層モデルほど単純な軽量モデルは、正確な動的一貫性と逐次モデリングエラーを著しく低減できることを示す。
論文 参考訳(メタデータ) (2024-12-15T17:33:56Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Bridging Imagination and Reality for Model-Based Deep Reinforcement
Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。
虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。
提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T03:22:01Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。