論文の概要: Insurance pricing on price comparison websites via reinforcement
learning
- arxiv url: http://arxiv.org/abs/2308.06935v1
- Date: Mon, 14 Aug 2023 04:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 14:25:32.763045
- Title: Insurance pricing on price comparison websites via reinforcement
learning
- Title(参考訳): 強化学習による価格比較ウェブサイトの保険価格設定
- Authors: Tanut Treetanthiploet, Yufei Zhang, Lukasz Szpruch, Isaac
Bowers-Barnard, Henrietta Ridley, James Hickey, Chris Pearce
- Abstract要約: 本稿では,モデルベースとモデルフリーの手法を統合することで,最適価格政策を学習する強化学習フレームワークを提案する。
また、オフラインデータセットを一貫した方法で価格ポリシーを評価することの重要性を強調した。
- 参考スコア(独自算出の注目度): 7.023335262537794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of price comparison websites (PCWs) has presented insurers with
unique challenges in formulating effective pricing strategies. Operating on
PCWs requires insurers to strike a delicate balance between competitive
premiums and profitability, amidst obstacles such as low historical conversion
rates, limited visibility of competitors' actions, and a dynamic market
environment. In addition to this, the capital intensive nature of the business
means pricing below the risk levels of customers can result in solvency issues
for the insurer. To address these challenges, this paper introduces
reinforcement learning (RL) framework that learns the optimal pricing policy by
integrating model-based and model-free methods. The model-based component is
used to train agents in an offline setting, avoiding cold-start issues, while
model-free algorithms are then employed in a contextual bandit (CB) manner to
dynamically update the pricing policy to maximise the expected revenue. This
facilitates quick adaptation to evolving market dynamics and enhances algorithm
efficiency and decision interpretability. The paper also highlights the
importance of evaluating pricing policies using an offline dataset in a
consistent fashion and demonstrates the superiority of the proposed methodology
over existing off-the-shelf RL/CB approaches. We validate our methodology using
synthetic data, generated to reflect private commercially available data within
real-world insurers, and compare against 6 other benchmark approaches. Our
hybrid agent outperforms these benchmarks in terms of sample efficiency and
cumulative reward with the exception of an agent that has access to perfect
market information which would not be available in a real-world set-up.
- Abstract(参考訳): 価格比較ウェブサイト(pcws)の出現は、効果的な価格戦略を策定するためのユニークな課題を保険会社に提示した。
pcwでの運用では、歴史的な転換率の低下、競争相手の行動の視認性の制限、ダイナミックな市場環境といった障害の中で、競争力の高いプレミアムと利益率の微妙なバランスを取る必要がある。
これに加えて、資本集約的なビジネスの性質は、顧客のリスクレベル未満の価格が保険会社の債務問題を引き起こすことを意味する。
そこで本稿では,モデルベースとモデルフリーを統合することで,最適価格政策を学習する強化学習(rl)フレームワークを提案する。
モデルベースコンポーネントは、オフライン環境でエージェントをトレーニングし、コールドスタートの問題を回避するために使用され、一方モデルフリーアルゴリズムは、期待される収益を最大化するために価格ポリシーを動的に更新するためにコンテキストブライト(CB)方式で使用される。
これにより、マーケットダイナミクスの進化への迅速な適応が促進され、アルゴリズムの効率と意思決定性が向上する。
また、オフラインデータセットを用いた価格ポリシーを一貫した方法で評価することの重要性を強調し、既存の市販のRL/CBアプローチよりも提案手法が優れていることを示す。
提案手法は,実世界の保険業者の個人で利用可能なデータを反映した合成データを用いて検証し,他の6つのベンチマーク手法と比較する。
我々のハイブリッドエージェントは、実世界のセットアップでは利用できない完璧な市場情報にアクセス可能なエージェントを除いて、サンプル効率と累積報酬でこれらのベンチマークを上回ります。
関連論文リスト
- OptiGrad: A Fair and more Efficient Price Elasticity Optimization via a Gradient Based Learning [7.145413681946911]
本稿では,非生命保険市場の利益率を勾配降下法により最適化する新しい手法を提案する。
1)利益マージンの最大化、2)転換率の確保、3)人口比率(DP)などの公正基準の実施の3つの主要な目標を目標としている。
論文 参考訳(メタデータ) (2024-04-16T04:21:59Z) - Measuring and Mitigating Biases in Motor Insurance Pricing [1.2289361708127877]
非生命保険部門は高度に競争力があり厳格に規制された枠組みで運営されている。
年齢ベースのプレミアムフェアネスは、特定の保険ドメインにも義務付けられている。
ある保険領域では、重篤な疾患や障害の存在などの変数が、公正性を評価するための新しい次元として現れている。
論文 参考訳(メタデータ) (2023-11-20T16:34:48Z) - Offline Reinforcement Learning for Optimizing Production Bidding
Policies [1.8689461238197953]
生産環境における入札ポリシーを最適化するための一般化可能なアプローチを提案する。
任意のベースポリシとディープニューラルネットワークを組み合わせたハイブリッドエージェントアーキテクチャを使用します。
このようなアーキテクチャは,シミュレーションおよび大規模生産入札環境において,統計的に有意な性能向上を達成できることを実証する。
論文 参考訳(メタデータ) (2023-10-13T22:14:51Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。
我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。
提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文 参考訳(メタデータ) (2023-03-28T00:23:23Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Building a Foundation for Data-Driven, Interpretable, and Robust Policy
Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。
RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文 参考訳(メタデータ) (2021-08-06T01:30:41Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - Online Regularization towards Always-Valid High-Dimensional Dynamic
Pricing [19.11333865618553]
本稿では,動的価格ポリシーに基づくオンライン統計学習を理論的保証付きで設計するための新しい手法を提案する。
提案手法は,提案する楽観的オンライン定期化最大価格(OORMLP)に3つの大きな利点がある。
理論的には,提案したOORMLPアルゴリズムは高次元モデルの空間構造を利用し,決定の地平線における対数的後悔を保証する。
論文 参考訳(メタデータ) (2020-07-05T23:52:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。