論文の概要: Insurance Pricing Optimization via Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2605.28327v2
- Date: Thu, 28 May 2026 12:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:54.847209
- Title: Insurance Pricing Optimization via Off-Policy Evaluation
- Title(参考訳): オフポリティ評価による保険価格最適化
- Authors: Sascha Günther, Dimitri Semenovich, Mario V. Wüthrich,
- Abstract要約: 我々は、意思決定問題として保険価格を定式化し、法外評価と価格管理のツールを用いて検討する。
本稿では,解釈可能なデータ共有型Lassoの定式化と,ニューラルネットワークに基づくフレキシブルなポリシーパラメータ化という,最適価格ルールの計算方法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional insurance pricing relies on risk-based principles that ensure actuarial fairness and solvency but do not explicitly account for policyholders' price sensitivity. We formulate insurance pricing as a decision-making problem and study it using tools from off-policy evaluation and stochastic control. We propose a kernelized inverse propensity score estimator that exploits local structure in the action space and yields variance reduction compared to the classical inverse propensity score estimator. Building on these value estimates, we investigate policy optimization and present two practical approaches for computing optimal pricing rules: an interpretable data-shared Lasso formulation and a flexible policy parameterization based on neural networks. Using a controlled synthetic travel insurance environment, we empirically confirm the theoretical results and show that neural networks outperform existing techniques for policy optimization.
- Abstract(参考訳): 伝統的な保険の価格設定は、アクチュアリの公正性と解決性を保証するリスクベースの原則に頼っているが、政策ステークホルダーの価格の感度を明示的に考慮していない。
意思決定問題として保険価格を定式化し、法外評価と確率制御のツールを用いて検討する。
本稿では, 動作空間の局所構造を利用して, 古典的逆確率スコア推定器と比較して, ばらつきを低減できる, カーネル化された逆確率スコア推定器を提案する。
これらの値推定に基づいて、政策最適化と最適価格ルールの計算方法として、解釈可能なデータ共有ラッソの定式化と、ニューラルネットワークに基づくフレキシブルなポリシーパラメータ化という2つの実践的アプローチを提案する。
制御された総合的旅行保険環境を用いて、理論的結果を実証的に確認し、ニューラルネットワークが政策最適化の既存の技術より優れていることを示す。
関連論文リスト
- Ratio-Variance Regularized Policy Optimization [64.95520246570446]
ポリシ比の分散を明示的に制約することは、信頼領域の制約に対する原則的な局所近似をもたらすことを示す。
本稿では,この制約を実装したR2bf VPO$(Ratio-Variance Regularized Policy Optimization)を紹介する。
論文 参考訳(メタデータ) (2026-05-26T09:53:42Z) - Optimal Policy Adaptation under Covariate Shift [15.703626346971182]
目的領域における最適ポリシーを2つのデータセットを用いて学習するための原則的アプローチを提案する。
我々は、所定の政策によって引き起こされた報酬に対する識別可能性の仮定を導出する。
そして、推定報酬を最適化することで最適な政策を学ぶ。
論文 参考訳(メタデータ) (2025-01-14T12:33:02Z) - A Convex Framework for Confounding Robust Inference [21.918894096307294]
本研究では,非保守的共同設立者を対象に,オフラインの文脈的盗賊の政策評価について検討した。
本稿では,凸プログラミングを用いてポリシー値のシャープな下限を推定する一般推定器を提案する。
論文 参考訳(メタデータ) (2023-09-21T19:45:37Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - A Risk-Sensitive Approach to Policy Optimization [21.684251937825234]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。
エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文 参考訳(メタデータ) (2022-08-19T00:55:05Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。