論文の概要: Ungeneralizable Contextual Logistic Bandit in Credit Scoring
- arxiv url: http://arxiv.org/abs/2212.07632v1
- Date: Thu, 15 Dec 2022 06:36:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 16:17:30.212006
- Title: Ungeneralizable Contextual Logistic Bandit in Credit Scoring
- Title(参考訳): クレジットスコアリングにおける非一般化文脈ロジスティックバンディット
- Authors: Pojtanut Manopanjasiri and Kantapong Visantavarakul and Seksan
Kiatsupaibul
- Abstract要約: 信用スコアリングにおける強化学習の適用は、文脈ロジスティック・バンディットのユニークな設定を生み出した。
我々は,基礎となる特徴の複雑さによって増大する十分な時間ステップが与えられると,トンプソンサンプリングがグリーディアルゴリズムよりも優位であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The application of reinforcement learning in credit scoring has created a
unique setting for contextual logistic bandit that does not conform to the
usual exploration-exploitation tradeoff but rather favors exploration-free
algorithms. Through sufficient randomness in a pool of observable contexts, the
reinforcement learning agent can simultaneously exploit an action with the
highest reward while still learning more about the structure governing that
environment. Thus, it is the case that greedy algorithms consistently
outperform algorithms with efficient exploration, such as Thompson sampling.
However, in a more pragmatic scenario in credit scoring, lenders can, to a
degree, classify each borrower as a separate group, and learning about the
characteristics of each group does not infer any information to another group.
Through extensive simulations, we show that Thompson sampling dominates over
greedy algorithms given enough timesteps which increase with the complexity of
underlying features.
- Abstract(参考訳): クレジットスコアリングにおける強化学習の適用は、通常の探索-探索のトレードオフに準拠せず、探索-フリーなアルゴリズムを好む文脈ロジスティックなバンディットのユニークな設定を生み出した。
観測可能なコンテキストのプールにおける十分なランダム性により、強化学習エージェントは、その環境を管理する構造についてより深く学びながら、最も報酬の高いアクションを同時に活用することができる。
したがって、グリーディアルゴリズムは、トンプソンサンプリングのような効率的な探索によってアルゴリズムを一貫して上回る。
しかし、クレジットスコアリングのより実践的なシナリオでは、貸し手はある程度、それぞれの借り手を別のグループに分類し、各グループの特性について学ぶことは、他のグループに何の情報も推論しない。
広範なシミュレーションにより、基礎となる特徴の複雑さによって増大する十分な時間ステップが与えられると、トンプソンサンプリングがグリーディアルゴリズムよりも優位であることを示す。
関連論文リスト
- An Empirical Evaluation of Federated Contextual Bandit Algorithms [27.275089644378376]
フェデレートされた学習は、ユーザが関心のあるアプリケーションと対話するときに生成される暗黙の信号を使って行うことができる。
我々は,フェデレートされた設定のための集中的な設定から,顕著な文脈的帯域幅アルゴリズムの変種を開発する。
本実験は, 探索・探索のトレードオフのバランスをとる上で, シンプルで一般的なソフトマックスの驚くべき有効性を明らかにした。
論文 参考訳(メタデータ) (2023-03-17T19:22:30Z) - Sparsity May Cry: Let Us Fail (Current) Sparse Neural Networks Together! [100.19080749267316]
Sparsity May Cry"ベンチマーク(SMC-Bench)は、慎重に計算された4つのタスクと10のデータセットのコレクションである。
SMC-Benchは、よりスケーラブルで一般化可能なスパースアルゴリズムの開発を奨励するように設計されている。
論文 参考訳(メタデータ) (2023-03-03T18:47:21Z) - Thompson Sampling for Robust Transfer in Multi-Task Bandits [36.82266781427533]
本研究では,オンラインマルチタスク学習における課題について検討する。
我々は、より一般的なオンラインマルチタスク学習プロトコルのためのトンプソンサンプリング(TS)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-17T05:28:01Z) - Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文 参考訳(メタデータ) (2022-06-01T13:46:25Z) - A High Performance, Low Complexity Algorithm for Multi-Player Bandits
Without Collision Sensing Information [7.198362232890585]
本論文では,Selfish KL-UCBアルゴリズムに触発された計算複雑性が非常に低いアルゴリズムであるRandomized Selfish KL-UCBを提案する。
ほぼすべての環境で、時には数桁のオーダーで、最先端のアルゴリズムが必要とする追加の知識なしで、最先端のアルゴリズムをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2021-02-19T23:10:48Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Instance-Dependent Complexity of Contextual Bandits and Reinforcement
Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。
我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。
次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文 参考訳(メタデータ) (2020-10-07T01:33:06Z) - A black-box adversarial attack for poisoning clustering [78.19784577498031]
本稿では,クラスタリングアルゴリズムのロバスト性をテストするために,ブラックボックス対逆攻撃法を提案する。
我々の攻撃は、SVM、ランダムフォレスト、ニューラルネットワークなどの教師付きアルゴリズムに対しても転送可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T18:19:31Z) - Efficient Contextual Bandits with Continuous Actions [102.64518426624535]
我々は、未知の構造を持つ連続的な動作を持つ文脈的包帯に対する計算的に抽出可能なアルゴリズムを作成する。
我々の還元型アルゴリズムは、ほとんどの教師付き学習表現で構成される。
論文 参考訳(メタデータ) (2020-06-10T19:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。