Fugu-MT 論文翻訳(概要): Insurance pricing on price comparison websites via reinforcement learning

論文の概要: Insurance pricing on price comparison websites via reinforcement learning

arxiv url: http://arxiv.org/abs/2308.06935v1
Date: Mon, 14 Aug 2023 04:44:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-15 14:25:32.763045
Title: Insurance pricing on price comparison websites via reinforcement learning
Title（参考訳）: 強化学習による価格比較ウェブサイトの保険価格設定
Authors: Tanut Treetanthiploet, Yufei Zhang, Lukasz Szpruch, Isaac Bowers-Barnard, Henrietta Ridley, James Hickey, Chris Pearce
Abstract要約: 本稿では,モデルベースとモデルフリーの手法を統合することで,最適価格政策を学習する強化学習フレームワークを提案する。また、オフラインデータセットを一貫した方法で価格ポリシーを評価することの重要性を強調した。
参考スコア（独自算出の注目度）: 7.023335262537794
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The emergence of price comparison websites (PCWs) has presented insurers with unique challenges in formulating effective pricing strategies. Operating on PCWs requires insurers to strike a delicate balance between competitive premiums and profitability, amidst obstacles such as low historical conversion rates, limited visibility of competitors' actions, and a dynamic market environment. In addition to this, the capital intensive nature of the business means pricing below the risk levels of customers can result in solvency issues for the insurer. To address these challenges, this paper introduces reinforcement learning (RL) framework that learns the optimal pricing policy by integrating model-based and model-free methods. The model-based component is used to train agents in an offline setting, avoiding cold-start issues, while model-free algorithms are then employed in a contextual bandit (CB) manner to dynamically update the pricing policy to maximise the expected revenue. This facilitates quick adaptation to evolving market dynamics and enhances algorithm efficiency and decision interpretability. The paper also highlights the importance of evaluating pricing policies using an offline dataset in a consistent fashion and demonstrates the superiority of the proposed methodology over existing off-the-shelf RL/CB approaches. We validate our methodology using synthetic data, generated to reflect private commercially available data within real-world insurers, and compare against 6 other benchmark approaches. Our hybrid agent outperforms these benchmarks in terms of sample efficiency and cumulative reward with the exception of an agent that has access to perfect market information which would not be available in a real-world set-up.
Abstract（参考訳）: 価格比較ウェブサイト(pcws)の出現は、効果的な価格戦略を策定するためのユニークな課題を保険会社に提示した。 pcwでの運用では、歴史的な転換率の低下、競争相手の行動の視認性の制限、ダイナミックな市場環境といった障害の中で、競争力の高いプレミアムと利益率の微妙なバランスを取る必要がある。これに加えて、資本集約的なビジネスの性質は、顧客のリスクレベル未満の価格が保険会社の債務問題を引き起こすことを意味する。そこで本稿では,モデルベースとモデルフリーを統合することで,最適価格政策を学習する強化学習(rl)フレームワークを提案する。モデルベースコンポーネントは、オフライン環境でエージェントをトレーニングし、コールドスタートの問題を回避するために使用され、一方モデルフリーアルゴリズムは、期待される収益を最大化するために価格ポリシーを動的に更新するためにコンテキストブライト(CB)方式で使用される。これにより、マーケットダイナミクスの進化への迅速な適応が促進され、アルゴリズムの効率と意思決定性が向上する。また、オフラインデータセットを用いた価格ポリシーを一貫した方法で評価することの重要性を強調し、既存の市販のRL/CBアプローチよりも提案手法が優れていることを示す。提案手法は,実世界の保険業者の個人で利用可能なデータを反映した合成データを用いて検証し,他の6つのベンチマーク手法と比較する。我々のハイブリッドエージェントは、実世界のセットアップでは利用できない完璧な市場情報にアクセス可能なエージェントを除いて、サンプル効率と累積報酬でこれらのベンチマークを上回ります。

関連論文リスト

Generative Auto-Bidding with Value-Guided Explorations [47.71346722705783]
本稿では,GAVE(Value-Guided Explorations)を用いた新しいオフライン自動入札フレームワークを提案する。 2つのオフラインデータセットと実世界のデプロイに関する実験結果は、GAVEがオフライン評価とオンラインA/Bテストの両方で最先端のベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2025-04-20T12:28:49Z)
Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T06:40:34Z)
Transfer Learning for Nonparametric Contextual Dynamic Pricing [17.420508136662257]
動的価格戦略は、市場条件や顧客特性に基づいて価格を調整することで、企業が収益を最大化する上で不可欠である。この制限を克服するための有望なアプローチの1つは、関連する製品や市場からの情報を活用して、焦点となる価格決定を知らせることである。本稿では,ソースドメインからの事前収集データを効果的に活用し,対象ドメインの価格決定を効率化する,新しいTLDPアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-31T01:05:04Z)
Dynamic Pricing in High-Speed Railways Using Multi-Agent Reinforcement Learning [4.800138615859937]
本稿では,競合演算子や協調演算子のコンテキストにおいて,効果的な動的価格戦略を設計する上での課題について述べる。非ゼロサムマルコフゲームに基づく強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-01-14T16:19:25Z)
A Hybrid Framework for Reinsurance Optimization: Integrating Generative Models and Reinforcement Learning [0.0]
再保険の最適化は、保険会社にとってリスク露光の管理、金融安定の確保、解決性維持に不可欠である。伝統的なアプローチは、しばしば動的なクレーム分布、高次元の制約、市場条件の進化に苦しむ。本稿では、生成モデルと強化学習を統合した新しいハイブリッドフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-11T02:02:32Z)
OptiGrad: A Fair and more Efficient Price Elasticity Optimization via a Gradient Based Learning [7.145413681946911]
本稿では,非生命保険市場の利益率を勾配降下法により最適化する新しい手法を提案する。 1)利益マージンの最大化、2)転換率の確保、3)人口比率(DP)などの公正基準の実施の3つの主要な目標を目標としている。
論文参考訳（メタデータ） (2024-04-16T04:21:59Z)
Measuring and Mitigating Biases in Motor Insurance Pricing [1.2289361708127877]
非生命保険部門は高度に競争力があり厳格に規制された枠組みで運営されている。年齢ベースのプレミアムフェアネスは、特定の保険ドメインにも義務付けられている。ある保険領域では、重篤な疾患や障害の存在などの変数が、公正性を評価するための新しい次元として現れている。
論文参考訳（メタデータ） (2023-11-20T16:34:48Z)
Offline Reinforcement Learning for Optimizing Production Bidding Policies [1.8689461238197953]
生産環境における入札ポリシーを最適化するための一般化可能なアプローチを提案する。任意のベースポリシとディープニューラルネットワークを組み合わせたハイブリッドエージェントアーキテクチャを使用します。このようなアーキテクチャは,シミュレーションおよび大規模生産入札環境において,統計的に有意な性能向上を達成できることを実証する。
論文参考訳（メタデータ） (2023-10-13T22:14:51Z)
Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文参考訳（メタデータ） (2023-10-10T02:45:50Z)
Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文参考訳（メタデータ） (2023-03-28T00:23:23Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
Safety Correction from Baseline: Towards the Risk-aware Policy in Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文参考訳（メタデータ） (2022-12-14T03:11:25Z)
COptiDICE: Offline Constrained Reinforcement Learning via Stationary Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文参考訳（メタデータ） (2022-04-19T15:55:47Z)
Building a Foundation for Data-Driven, Interpretable, and Robust Policy Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。 RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文参考訳（メタデータ） (2021-08-06T01:30:41Z)
Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文参考訳（メタデータ） (2021-06-01T12:01:51Z)
Online Regularization towards Always-Valid High-Dimensional Dynamic Pricing [19.11333865618553]
本稿では,動的価格ポリシーに基づくオンライン統計学習を理論的保証付きで設計するための新しい手法を提案する。提案手法は,提案する楽観的オンライン定期化最大価格(OORMLP)に3つの大きな利点がある。理論的には,提案したOORMLPアルゴリズムは高次元モデルの空間構造を利用し,決定の地平線における対数的後悔を保証する。
論文参考訳（メタデータ） (2020-07-05T23:52:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。