論文の概要: Enhanced Gradient Boosting for Zero-Inflated Insurance Claims and Comparative Analysis of CatBoost, XGBoost, and LightGBM
- arxiv url: http://arxiv.org/abs/2307.07771v3
- Date: Tue, 18 Jun 2024 12:09:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 05:13:54.211761
- Title: Enhanced Gradient Boosting for Zero-Inflated Insurance Claims and Comparative Analysis of CatBoost, XGBoost, and LightGBM
- Title(参考訳): ゼロ膨張型保険債権に対するグラディエントブースティングの強化とCatBoost, XGBoost, LightGBMの比較分析
- Authors: Banghee So,
- Abstract要約: CatBoostは、予測性能に基づいた自動クレーム頻度モデルを開発するための最良のライブラリである。
そこで我々は, インフレ確率$p$と分布平均$mu$の関係を仮定した, ゼロ膨張ポアソン強化木モデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The property and casualty (P&C) insurance industry faces challenges in developing claim predictive models due to the highly right-skewed distribution of positive claims with excess zeros. To address this, actuarial science researchers have employed "zero-inflated" models that combine a traditional count model and a binary model. This paper investigates the use of boosting algorithms to process insurance claim data, including zero-inflated telematics data, to construct claim frequency models. Three popular gradient boosting libraries - XGBoost, LightGBM, and CatBoost - are evaluated and compared to determine the most suitable library for training insurance claim data and fitting actuarial frequency models. Through a comprehensive analysis of two distinct datasets, it is determined that CatBoost is the best for developing auto claim frequency models based on predictive performance. Furthermore, we propose a new zero-inflated Poisson boosted tree model, with variation in the assumption about the relationship between inflation probability $p$ and distribution mean $\mu$, and find that it outperforms others depending on data characteristics. This model enables us to take advantage of particular CatBoost tools, which makes it easier and more convenient to investigate the effects and interactions of various risk features on the frequency model when using telematics data.
- Abstract(参考訳): 不動産・カジュアルティー(P&C)保険業界は、過剰なゼロの正のクレームの高度に右折した分布のため、クレーム予測モデルの開発において課題に直面している。
これを解決するために、アクチュアリ科学研究者は従来のカウントモデルとバイナリモデルを組み合わせた「ゼロインフレード」モデルを採用した。
本稿では,ゼロインフレーションされたテレマティクスデータを含む保険請求データを処理し,請求頻度モデルを構築するためのブースティングアルゴリズムについて検討する。
XGBoost、LightGBM、CatBoostの3つの人気勾配向上ライブラリを評価し、保険請求データをトレーニングし、アクチュアリル周波数モデルに適合させるのに最も適したライブラリを比較した。
2つの異なるデータセットの包括的分析を通じて、予測性能に基づいて自動クレーム頻度モデルを開発するのに、CatBoostが最適であると判断する。
さらに,0-inflated Poisson boosted tree modelを新たに提案し,インフレーション確率$p$と分布平均$\mu$の関係を仮定した。
このモデルにより、特定のCatBoostツールを利用することができ、テレマティクスデータを使用する場合、様々なリスク特徴が周波数モデルに与える影響や相互作用を調べるのが簡単かつより便利になる。
関連論文リスト
- Zero-Inflated Tweedie Boosted Trees with CatBoost for Insurance Loss Analytics [0.8287206589886881]
我々はTweedie回帰モデルを変更し、自動車、健康、責任などの各種保険の総括請求をモデル化する際の限界に対処する。
我々の推奨するアプローチは、予測精度を高めるために反復的なプロセスを活用するのに役立つため、0-claimプロセスの洗練されたモデリングとブースティング手法の統合である。
モデル化の結果, モデル性能が著しく向上し, 保険請求分析に適した精度の予測を行う可能性が示された。
論文 参考訳(メタデータ) (2024-06-23T20:03:55Z) - Measuring and Improving Attentiveness to Partial Inputs with
Counterfactuals [95.5442607785241]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Quantile Extreme Gradient Boosting for Uncertainty Quantification [1.7685947618629572]
Extreme Gradient Boosting (XGBoost)は、最も人気のある機械学習(ML)手法の1つである。
本稿では,不確実性(QXGBoost)を推定する目的関数として,修正量子回帰を用いたXGBoostの拡張を提案する。
提案手法は, 正規および量子的光勾配向上のために生成した不確実性推定値と同等あるいは優れた性能を示した。
論文 参考訳(メタデータ) (2023-04-23T19:46:19Z) - Bayesian CART models for insurance claims frequency [0.0]
分類と回帰木(CART)とそのアンサンブルは、アクチュアリ文学で人気を博している。
本稿では,保険価格に関するベイジアンCARTモデルについて紹介する。
これらのモデルの適用可能性を説明するため、いくつかのシミュレーションと実際の保険データについて論じる。
論文 参考訳(メタデータ) (2023-03-03T13:48:35Z) - Less is More: Mitigate Spurious Correlations for Open-Domain Dialogue
Response Generation Models by Causal Discovery [52.95935278819512]
本研究で得られたCGDIALOGコーパスに基づくオープンドメイン応答生成モデルのスプリアス相関に関する最初の研究を行った。
因果探索アルゴリズムに着想を得て,反応生成モデルの学習と推論のための新しいモデル非依存手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T06:33:48Z) - Adaptive LASSO estimation for functional hidden dynamic geostatistical
model [69.10717733870575]
関数型隠れ統計モデル(f-HD)のためのペナル化極大推定器(PMLE)に基づく新しいモデル選択アルゴリズムを提案する。
このアルゴリズムは反復最適化に基づいており、適応最小限の収縮・セレクタ演算子(GMSOLAS)ペナルティ関数を用いており、これは不給付のf-HD最大線量推定器によって得られる。
論文 参考訳(メタデータ) (2022-08-10T19:17:45Z) - Learning Summary Statistics for Bayesian Inference with Autoencoders [58.720142291102135]
我々は,ディープニューラルネットワークに基づくオートエンコーダの内部次元を要約統計として利用する。
パラメータ関連情報を全て符号化するエンコーダのインセンティブを作成するため,トレーニングデータの生成に使用した暗黙的情報にデコーダがアクセスできるようにする。
論文 参考訳(メタデータ) (2022-01-28T12:00:31Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Synthetic Dataset Generation of Driver Telematics [0.0]
本稿では、類似の現実保険データセットからエミュレートされたドライバーテレマティクスの合成データセットの作成に使用されるテクニックについて述べる。
機械学習アルゴリズムを使った3段階のプロセスに従う。
得られたデータセットは、Poissonとガンマ回帰モデルが各データに適合する場合に、合成データセットと実データセットを比較して評価する。
論文 参考訳(メタデータ) (2021-01-30T15:52:56Z) - When stakes are high: balancing accuracy and transparency with
Model-Agnostic Interpretable Data-driven suRRogates [0.0]
銀行や保険のような高度に規制された産業は、透明性のある意思決定アルゴリズムを求めている。
モデル非依存型解釈型データ駆動型SuRRogate(maidrr)の開発手順を提案する。
知識は部分依存効果によってブラックボックスから抽出される。
これにより、自動変数選択による特徴空間のセグメンテーションが実現される。
論文 参考訳(メタデータ) (2020-07-14T08:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。