論文の概要: Reinforcement Learning for Micro-Level Claims Reserving
- arxiv url: http://arxiv.org/abs/2601.07637v1
- Date: Mon, 12 Jan 2026 15:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.495113
- Title: Reinforcement Learning for Micro-Level Claims Reserving
- Title(参考訳): マイクロレベルクレーム保存のための強化学習
- Authors: Benjamin Avanzi, Ronald Richman, Bernard Wong, Mario Wüthrich, Yagebu Xie,
- Abstract要約: 我々は、クレームレベルのマルコフ決定プロセスとして保存する個々のクレームを定式化する。
私たちは、バリュエーションにおいてオープンなクレームを含む、観察されたすべてのクレームトラジェクトリから学びます。
CASとSPLICEの総合保険データセットでは、提案されたSoft Actor-Critic実装は競合するクレームレベルの精度を提供する。
- 参考スコア(独自算出の注目度): 1.2613956492162683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Outstanding claim liabilities are revised repeatedly as claims develop, yet most modern reserving models are trained as one-shot predictors and typically learn only from settled claims. We formulate individual claims reserving as a claim-level Markov decision process in which an agent sequentially updates outstanding claim liability (OCL) estimates over development, using continuous actions and a reward design that balances accuracy with stable reserve revisions. A key advantage of this reinforcement learning (RL) approach is that it can learn from all observed claim trajectories, including claims that remain open at valuation, thereby avoiding the reduced sample size and selection effects inherent in supervised methods trained on ultimate outcomes only. We also introduce practical components needed for actuarial use -- initialisation of new claims, temporally consistent tuning via a rolling-settlement scheme, and an importance-weighting mechanism to mitigate portfolio-level underestimation driven by the rarity of large claims. On CAS and SPLICE synthetic general insurance datasets, the proposed Soft Actor-Critic implementation delivers competitive claim-level accuracy and strong aggregate OCL performance, particularly for the immature claim segments that drive most of the liability.
- Abstract(参考訳): 請求責任はクレームが発展するにつれて繰り返し修正されるが、現代の保留モデルは1ショットの予測子として訓練され、通常は解決されたクレームからのみ学習される。
我々は,個別のクレームリザーブをクレームレベルのマルコフ決定プロセスとして定式化し,エージェントが連続的な行動と,安定したリザーブリフレクションと精度のバランスをとる報奨設計を用いて,開発時に顕著なクレームリデュービリティ(OCL)の見積を逐次更新する。
この強化学習(RL)アプローチの鍵となる利点は、評価においてオープンなクレームを含む全ての観測されたクレーム軌跡から学習できることである。
また,新たなクレームの初期化,転がり落ち方式による時間的一貫したチューニング,および大きなクレームの希少性によって引き起こされるポートフォリオレベルの過小評価を緩和する重要度重み付け機構についても紹介する。
CASとSPLICEの総合保険データセットにおいて、提案されたSoft Actor-Critic実装は、競争力のあるクレームレベルの精度と強力なOCL性能を提供する。
関連論文リスト
- Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - Conformal Prediction Beyond the Horizon: Distribution-Free Inference for Policy Evaluation [14.811119246685534]
本研究では,無限水平政策評価のための統一型コンフォメーション予測フレームワークを提案する。
本手法は,分布RLと共形キャリブレーション,観測されないリターン,時間依存性,分布シフトといった課題に対処する。
論文 参考訳(メタデータ) (2025-10-29T23:45:44Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - Pinpointing crucial steps: Attribution-based Credit Assignment for Verifiable Reinforcement Learning [5.880405013005892]
ACPOは、困難なカリキュラムを組み込んだ段階的なフレームワークである。
ACPOは、トラジェクティブセマンティックセグメンテーションと属性ベースの表現を用いて探索を改善する。
これは、各推論ステップの階層的寄与を正確に定量化する分解された報酬システムによる搾取を強化する。
論文 参考訳(メタデータ) (2025-10-10T01:22:55Z) - Adaptive Insurance Reserving with CVaR-Constrained Reinforcement Learning under Macroeconomic Regimes [0.0]
本稿では、テールリスク感度、マクロ経済体制モデリング、規制コンプライアンスを統合した保険保留のための強化学習(RL)フレームワークを提案する。
このフレームワークは、固定ショックストレステストとシステマティック・ストラテライズド・アナリティクスに対応しており、不確実性の下での維持に原則的で原則化されたアプローチを提供する。
論文 参考訳(メタデータ) (2025-04-13T01:43:25Z) - SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。
既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。
クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - Probabilistic Satisfaction of Temporal Logic Constraints in Reinforcement Learning via Adaptive Policy-Switching [0.0]
Constrained Reinforcement Learning (CRL)は、従来の強化学習(RL)フレームワークに制約を導入する機械学習のサブセットである。
純粋学習(逆)と制約満足度を切り替えることに依存する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-10T15:19:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。