論文の概要: CatBoost Versus XGBoost and LightGBM: Developing Enhanced Predictive
Models for Zero-Inflated Insurance Claim Data
- arxiv url: http://arxiv.org/abs/2307.07771v1
- Date: Sat, 15 Jul 2023 10:54:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 17:47:00.295845
- Title: CatBoost Versus XGBoost and LightGBM: Developing Enhanced Predictive
Models for Zero-Inflated Insurance Claim Data
- Title(参考訳): CatBoost Versus XGBoostとLightGBM:ゼロ膨張保険請求データのための予測モデルの開発
- Authors: Banghee So
- Abstract要約: 予測性能に基づく自動クレーム周波数モデルの開発において,CatBoostが優れていることを示す。
また,Zero-inflated Poissonは,データ特性によらず,インフレ確率と分布平均の関係を仮定して,木モデルを強化した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the property and casualty insurance industry, some challenges are
presented in constructing claim predictive models due to a highly right-skewed
distribution of positive claims with excess zeros. Traditional models, such as
Poisson or negative binomial Generalized Linear Models(GLMs), frequently
struggle with inflated zeros. In response to this, researchers in actuarial
science have employed ``zero-inflated" models that merge a traditional count
model and a binary model to address these datasets more effectively. This paper
uses boosting algorithms to process insurance claim data, including
zero-inflated telematics data, in order to construct claim frequency models. We
evaluated and compared three popular gradient boosting libraries - XGBoost,
LightGBM, and CatBoost - with the aim of identifying the most suitable library
for training insurance claim data and fitting actuarial frequency models.
Through a rigorous analysis of two distinct datasets, we demonstrated that
CatBoost is superior in developing auto claim frequency models based on
predictive performance. We also found that Zero-inflated Poisson boosted tree
models, with variations in their assumptions about the relationship between
inflation probability and distribution mean, outperformed others depending on
data characteristics. Furthermore, by using a specific CatBoost tool, we
explored the effects and interactions of different risk features on the
frequency model when using telematics data.
- Abstract(参考訳): 不動産・カジュアル保険業界では、過剰なゼロの正のクレームの分布が右に曲がったため、クレーム予測モデルの構築にいくつかの課題が提示されている。
poisson や negative binomial generalized linear models (glms) のような伝統的なモデルは、しばしば膨らんだ零点に苦しむ。
これに対応して、アクチュアリ科学の研究者たちは、従来のカウントモデルとバイナリモデルを融合して、これらのデータセットをより効率的に処理する‘ゼロインフレーション’モデルを採用した。
本稿では,請求頻度モデルを構築するために,ゼロインフレーションテレマティクスデータを含む保険請求データを処理するためにブースティングアルゴリズムを使用する。
我々は,XGBoost,LightGBM,CatBoostの3つの普及度向上ライブラリを,保険請求データをトレーニングし,アクチュアリル周波数モデルに適合させるのに適したライブラリとして評価し,比較した。
2つの異なるデータセットの厳密な分析を通して、予測性能に基づいた自動クレーム頻度モデルの開発において、CatBoostが優れていることを示した。
また,Zero-inflated Poissonは,データ特性によらず,インフレ確率と分布平均の関係を仮定して,木モデルを強化した。
さらに、特定のCatBoostツールを用いて、テレマティクスデータを使用する場合の周波数モデルに対する異なるリスク特徴の影響と相互作用を検討した。
関連論文リスト
- Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。
推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。
我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文 参考訳(メタデータ) (2024-11-02T07:06:53Z) - Learning Augmentation Policies from A Model Zoo for Time Series Forecasting [58.66211334969299]
本稿では,強化学習に基づく学習可能なデータ拡張手法であるAutoTSAugを紹介する。
限界サンプルを学習可能なポリシーで強化することにより、AutoTSAugは予測性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-09-10T07:34:19Z) - Zero-Inflated Tweedie Boosted Trees with CatBoost for Insurance Loss Analytics [0.8287206589886881]
我々はTweedie回帰モデルを変更し、様々なタイプの保険の集合的請求をモデル化する際の限界に対処する。
我々の推奨するアプローチは、0-claimプロセスの洗練されたモデリングとブースティング手法の統合である。
モデル化の結果,モデルの性能が著しく向上し,より正確な予測を行う可能性が示された。
論文 参考訳(メタデータ) (2024-06-23T20:03:55Z) - Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - Quantile Extreme Gradient Boosting for Uncertainty Quantification [1.7685947618629572]
Extreme Gradient Boosting (XGBoost)は、最も人気のある機械学習(ML)手法の1つである。
本稿では,不確実性(QXGBoost)を推定する目的関数として,修正量子回帰を用いたXGBoostの拡張を提案する。
提案手法は, 正規および量子的光勾配向上のために生成した不確実性推定値と同等あるいは優れた性能を示した。
論文 参考訳(メタデータ) (2023-04-23T19:46:19Z) - Bayesian CART models for insurance claims frequency [0.0]
分類と回帰木(CART)とそのアンサンブルは、アクチュアリ文学で人気を博している。
本稿では,保険価格に関するベイジアンCARTモデルについて紹介する。
これらのモデルの適用可能性を説明するため、いくつかのシミュレーションと実際の保険データについて論じる。
論文 参考訳(メタデータ) (2023-03-03T13:48:35Z) - Adaptive LASSO estimation for functional hidden dynamic geostatistical
model [69.10717733870575]
関数型隠れ統計モデル(f-HD)のためのペナル化極大推定器(PMLE)に基づく新しいモデル選択アルゴリズムを提案する。
このアルゴリズムは反復最適化に基づいており、適応最小限の収縮・セレクタ演算子(GMSOLAS)ペナルティ関数を用いており、これは不給付のf-HD最大線量推定器によって得られる。
論文 参考訳(メタデータ) (2022-08-10T19:17:45Z) - Learning Summary Statistics for Bayesian Inference with Autoencoders [58.720142291102135]
我々は,ディープニューラルネットワークに基づくオートエンコーダの内部次元を要約統計として利用する。
パラメータ関連情報を全て符号化するエンコーダのインセンティブを作成するため,トレーニングデータの生成に使用した暗黙的情報にデコーダがアクセスできるようにする。
論文 参考訳(メタデータ) (2022-01-28T12:00:31Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Synthetic Dataset Generation of Driver Telematics [0.0]
本稿では、類似の現実保険データセットからエミュレートされたドライバーテレマティクスの合成データセットの作成に使用されるテクニックについて述べる。
機械学習アルゴリズムを使った3段階のプロセスに従う。
得られたデータセットは、Poissonとガンマ回帰モデルが各データに適合する場合に、合成データセットと実データセットを比較して評価する。
論文 参考訳(メタデータ) (2021-01-30T15:52:56Z) - When stakes are high: balancing accuracy and transparency with
Model-Agnostic Interpretable Data-driven suRRogates [0.0]
銀行や保険のような高度に規制された産業は、透明性のある意思決定アルゴリズムを求めている。
モデル非依存型解釈型データ駆動型SuRRogate(maidrr)の開発手順を提案する。
知識は部分依存効果によってブラックボックスから抽出される。
これにより、自動変数選択による特徴空間のセグメンテーションが実現される。
論文 参考訳(メタデータ) (2020-07-14T08:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。