論文の概要: Enhanced Gradient Boosting for Zero-Inflated Insurance Claims and
Comparative Analysis of CatBoost, XGBoost, and LightGBM
- arxiv url: http://arxiv.org/abs/2307.07771v2
- Date: Sat, 28 Oct 2023 15:03:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 20:35:30.511432
- Title: Enhanced Gradient Boosting for Zero-Inflated Insurance Claims and
Comparative Analysis of CatBoost, XGBoost, and LightGBM
- Title(参考訳): ゼロ膨張型保険債権に対するグラディエントブースティングの強化とCatBoost, XGBoost, LightGBMの比較分析
- Authors: Banghee So
- Abstract要約: CatBoostは、予測性能に基づいた自動クレーム頻度モデルを開発するための最良のライブラリである。
そこで我々は, インフレ確率$p$と分布平均$mu$の関係を仮定した, ゼロ膨張ポアソン強化木モデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The property and casualty (P&C) insurance industry faces challenges in
developing claim predictive models due to the highly right-skewed distribution
of positive claims with excess zeros. To address this, actuarial science
researchers have employed "zero-inflated" models that combine a traditional
count model and a binary model. This paper investigates the use of boosting
algorithms to process insurance claim data, including zero-inflated telematics
data, to construct claim frequency models. Three popular gradient boosting
libraries - XGBoost, LightGBM, and CatBoost - are evaluated and compared to
determine the most suitable library for training insurance claim data and
fitting actuarial frequency models. Through a comprehensive analysis of two
distinct datasets, it is determined that CatBoost is the best for developing
auto claim frequency models based on predictive performance. Furthermore, we
propose a new zero-inflated Poisson boosted tree model, with variation in the
assumption about the relationship between inflation probability $p$ and
distribution mean $\mu$, and find that it outperforms others depending on data
characteristics. This model enables us to take advantage of particular CatBoost
tools, which makes it easier and more convenient to investigate the effects and
interactions of various risk features on the frequency model when using
telematics data.
- Abstract(参考訳): 不動産・カジュアルティー(P&C)保険業界は、過剰なゼロの正のクレームの高度に右折した分布のため、クレーム予測モデルの開発において課題に直面している。
これを解決するために、アクチュアリ科学研究者は従来のカウントモデルとバイナリモデルを組み合わせた「ゼロインフレード」モデルを採用した。
本稿では,ゼロインフレーションテレマティクスデータを含む保険請求データを処理し,請求頻度モデルを構築するためのブースティングアルゴリズムについて検討する。
XGBoost、LightGBM、CatBoostの3つの人気勾配向上ライブラリを評価し、保険請求データをトレーニングし、アクチュアリル周波数モデルを適用するのに最も適したライブラリを比較した。
2つの異なるデータセットの包括的分析を通じて、予測性能に基づいて自動クレーム頻度モデルを開発するのに、CatBoostが最適であると判断する。
さらに,0-inflated Poisson boosted tree modelを新たに提案し,インフレーション確率$p$と分布平均$\mu$の関係を仮定した。
このモデルは特定のcatboostツールを利用することができ、テレマティクスデータを使用する際の周波数モデルにおける様々なリスク特徴の効果や相互作用を調べるのがより簡単で便利です。
関連論文リスト
- Enhancing Crash Frequency Modeling Based on Augmented Multi-Type Data by Hybrid VAE-Diffusion-Based Generative Neural Networks [13.402051372401822]
衝突頻度モデリングにおける重要な課題は、過剰なゼロ観測の頻度である。
我々は、ゼロ観測を減らすために、ハイブリッドなVAE拡散ニューラルネットワークを提案する。
我々は、類似性、正確性、多様性、構造的整合性といった指標を用いて、このモデルによって生成された合成データ品質を評価する。
論文 参考訳(メタデータ) (2025-01-17T07:53:27Z) - From Point to probabilistic gradient boosting for claim frequency and severity prediction [1.3812010983144802]
我々は、決定木アルゴリズムの既存の点と確率的勾配を全て向上させる統一的な表記法と対照的に提示する。
クレーム頻度と重大度を5つの公開データセットで比較した。
論文 参考訳(メタデータ) (2024-12-19T14:50:10Z) - Zero-Inflated Tweedie Boosted Trees with CatBoost for Insurance Loss Analytics [0.8287206589886881]
我々はTweedie回帰モデルを変更し、様々なタイプの保険の集合的請求をモデル化する際の限界に対処する。
我々の推奨するアプローチは、0-claimプロセスの洗練されたモデリングとブースティング手法の統合である。
モデル化の結果,モデルの性能が著しく向上し,より正確な予測を行う可能性が示された。
論文 参考訳(メタデータ) (2024-06-23T20:03:55Z) - Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Quantile Extreme Gradient Boosting for Uncertainty Quantification [1.7685947618629572]
Extreme Gradient Boosting (XGBoost)は、最も人気のある機械学習(ML)手法の1つである。
本稿では,不確実性(QXGBoost)を推定する目的関数として,修正量子回帰を用いたXGBoostの拡張を提案する。
提案手法は, 正規および量子的光勾配向上のために生成した不確実性推定値と同等あるいは優れた性能を示した。
論文 参考訳(メタデータ) (2023-04-23T19:46:19Z) - Bayesian CART models for insurance claims frequency [0.0]
分類と回帰木(CART)とそのアンサンブルは、アクチュアリ文学で人気を博している。
本稿では,保険価格に関するベイジアンCARTモデルについて紹介する。
これらのモデルの適用可能性を説明するため、いくつかのシミュレーションと実際の保険データについて論じる。
論文 参考訳(メタデータ) (2023-03-03T13:48:35Z) - Less is More: Mitigate Spurious Correlations for Open-Domain Dialogue
Response Generation Models by Causal Discovery [52.95935278819512]
本研究で得られたCGDIALOGコーパスに基づくオープンドメイン応答生成モデルのスプリアス相関に関する最初の研究を行った。
因果探索アルゴリズムに着想を得て,反応生成モデルの学習と推論のための新しいモデル非依存手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T06:33:48Z) - Adaptive LASSO estimation for functional hidden dynamic geostatistical
model [69.10717733870575]
関数型隠れ統計モデル(f-HD)のためのペナル化極大推定器(PMLE)に基づく新しいモデル選択アルゴリズムを提案する。
このアルゴリズムは反復最適化に基づいており、適応最小限の収縮・セレクタ演算子(GMSOLAS)ペナルティ関数を用いており、これは不給付のf-HD最大線量推定器によって得られる。
論文 参考訳(メタデータ) (2022-08-10T19:17:45Z) - Learning Summary Statistics for Bayesian Inference with Autoencoders [58.720142291102135]
我々は,ディープニューラルネットワークに基づくオートエンコーダの内部次元を要約統計として利用する。
パラメータ関連情報を全て符号化するエンコーダのインセンティブを作成するため,トレーニングデータの生成に使用した暗黙的情報にデコーダがアクセスできるようにする。
論文 参考訳(メタデータ) (2022-01-28T12:00:31Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。