Fugu-MT 論文翻訳(概要): Enhanced Gradient Boosting for Zero-Inflated Insurance Claims and Comparative Analysis of CatBoost, XGBoost, and LightGBM

論文の概要: Enhanced Gradient Boosting for Zero-Inflated Insurance Claims and Comparative Analysis of CatBoost, XGBoost, and LightGBM

arxiv url: http://arxiv.org/abs/2307.07771v3
Date: Tue, 18 Jun 2024 12:09:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-20 05:13:54.211761
Title: Enhanced Gradient Boosting for Zero-Inflated Insurance Claims and Comparative Analysis of CatBoost, XGBoost, and LightGBM
Title（参考訳）: ゼロ膨張型保険債権に対するグラディエントブースティングの強化とCatBoost, XGBoost, LightGBMの比較分析
Authors: Banghee So,
Abstract要約: CatBoostは、予測性能に基づいた自動クレーム頻度モデルを開発するための最良のライブラリである。そこで我々は, インフレ確率$p$と分布平均$mu$の関係を仮定した, ゼロ膨張ポアソン強化木モデルを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The property and casualty (P&C) insurance industry faces challenges in developing claim predictive models due to the highly right-skewed distribution of positive claims with excess zeros. To address this, actuarial science researchers have employed "zero-inflated" models that combine a traditional count model and a binary model. This paper investigates the use of boosting algorithms to process insurance claim data, including zero-inflated telematics data, to construct claim frequency models. Three popular gradient boosting libraries - XGBoost, LightGBM, and CatBoost - are evaluated and compared to determine the most suitable library for training insurance claim data and fitting actuarial frequency models. Through a comprehensive analysis of two distinct datasets, it is determined that CatBoost is the best for developing auto claim frequency models based on predictive performance. Furthermore, we propose a new zero-inflated Poisson boosted tree model, with variation in the assumption about the relationship between inflation probability $p$ and distribution mean $\mu$, and find that it outperforms others depending on data characteristics. This model enables us to take advantage of particular CatBoost tools, which makes it easier and more convenient to investigate the effects and interactions of various risk features on the frequency model when using telematics data.
Abstract（参考訳）: 不動産・カジュアルティー(P&C)保険業界は、過剰なゼロの正のクレームの高度に右折した分布のため、クレーム予測モデルの開発において課題に直面している。これを解決するために、アクチュアリ科学研究者は従来のカウントモデルとバイナリモデルを組み合わせた「ゼロインフレード」モデルを採用した。本稿では,ゼロインフレーションされたテレマティクスデータを含む保険請求データを処理し,請求頻度モデルを構築するためのブースティングアルゴリズムについて検討する。 XGBoost、LightGBM、CatBoostの3つの人気勾配向上ライブラリを評価し、保険請求データをトレーニングし、アクチュアリル周波数モデルに適合させるのに最も適したライブラリを比較した。 2つの異なるデータセットの包括的分析を通じて、予測性能に基づいて自動クレーム頻度モデルを開発するのに、CatBoostが最適であると判断する。さらに,0-inflated Poisson boosted tree modelを新たに提案し,インフレーション確率$p$と分布平均$\mu$の関係を仮定した。このモデルにより、特定のCatBoostツールを利用することができ、テレマティクスデータを使用する場合、様々なリスク特徴が周波数モデルに与える影響や相互作用を調べるのが簡単かつより便利になる。

関連論文リスト

STAR : Bridging Statistical and Agentic Reasoning for Large Model Performance Prediction [78.0692157478247]
本稿では,知識駆動型エージェント推論を用いて,データ駆動型静的予測を橋渡しするフレームワークSTARを提案する。 STARはスコアベースとランクベースの両方の基準線を一貫して上回ることを示す。
論文参考訳（メタデータ） (2026-02-12T16:30:07Z)
Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文参考訳（メタデータ） (2025-10-16T03:37:16Z)
Learning More with Less: A Generalizable, Self-Supervised Framework for Privacy-Preserving Capacity Estimation with EV Charging Data [84.37348569981307]
自己教師付き事前学習に基づく第一種能力推定モデルを提案する。我々のモデルは一貫して最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2025-10-05T08:58:35Z)
Model Correlation Detection via Random Selection Probing [62.093777777813756]
既存の類似性に基づく手法では、モデルパラメータにアクセスしたり、しきい値なしでスコアを生成する必要がある。本稿では,モデル相関検出を統計的テストとして定式化する仮説テストフレームワークであるランダム選択探索(RSP)を紹介する。 RSPは相関の証拠を定量化する厳密なp-値を生成する。
論文参考訳（メタデータ） (2025-09-29T01:40:26Z)
Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文参考訳（メタデータ） (2025-05-26T16:05:10Z)
Explainable Boosting Machine for Predicting Claim Severity and Frequency in Car Insurance [0.0]
本稿では、本質的に解釈可能な特性と高い予測性能を組み合わせた説明可能なブースティングマシン(EBM)モデルを提案する。本手法は,自動車保険頻度と重大度データに基づいて実装し,従来の競合相手と比較した。
論文参考訳（メタデータ） (2025-03-27T09:59:45Z)
DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
Enhancing Crash Frequency Modeling Based on Augmented Multi-Type Data by Hybrid VAE-Diffusion-Based Generative Neural Networks [13.402051372401822]
衝突頻度モデリングにおける重要な課題は、過剰なゼロ観測の頻度である。我々は、ゼロ観測を減らすために、ハイブリッドなVAE拡散ニューラルネットワークを提案する。我々は、類似性、正確性、多様性、構造的整合性といった指標を用いて、このモデルによって生成された合成データ品質を評価する。
論文参考訳（メタデータ） (2025-01-17T07:53:27Z)
From Point to probabilistic gradient boosting for claim frequency and severity prediction [1.3812010983144802]
我々は、決定木アルゴリズムの既存の点と確率的勾配を全て向上させる統一的な表記法と対照的に提示する。クレーム頻度と重大度を5つの公開データセットで比較した。モデル精度と予測精度の間にトレードオフがないことが分かりました。
論文参考訳（メタデータ） (2024-12-19T14:50:10Z)
Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文参考訳（メタデータ） (2024-11-02T07:06:53Z)
Learning Augmentation Policies from A Model Zoo for Time Series Forecasting [58.66211334969299]
本稿では,強化学習に基づく学習可能なデータ拡張手法であるAutoTSAugを紹介する。限界サンプルを学習可能なポリシーで強化することにより、AutoTSAugは予測性能を大幅に改善する。
論文参考訳（メタデータ） (2024-09-10T07:34:19Z)
Zero-Inflated Tweedie Boosted Trees with CatBoost for Insurance Loss Analytics [0.8287206589886881]
我々はTweedie回帰モデルを変更し、様々なタイプの保険の集合的請求をモデル化する際の限界に対処する。我々の推奨するアプローチは、0-claimプロセスの洗練されたモデリングとブースティング手法の統合である。モデル化の結果,モデルの性能が著しく向上し,より正確な予測を行う可能性が示された。
論文参考訳（メタデータ） (2024-06-23T20:03:55Z)
Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。 CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文参考訳（メタデータ） (2023-11-16T06:27:35Z)
Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文参考訳（メタデータ） (2023-10-25T17:59:12Z)
Quantile Extreme Gradient Boosting for Uncertainty Quantification [1.7685947618629572]
Extreme Gradient Boosting (XGBoost)は、最も人気のある機械学習(ML)手法の1つである。本稿では,不確実性(QXGBoost)を推定する目的関数として,修正量子回帰を用いたXGBoostの拡張を提案する。提案手法は, 正規および量子的光勾配向上のために生成した不確実性推定値と同等あるいは優れた性能を示した。
論文参考訳（メタデータ） (2023-04-23T19:46:19Z)
Bayesian CART models for insurance claims frequency [0.0]
分類と回帰木(CART)とそのアンサンブルは、アクチュアリ文学で人気を博している。本稿では,保険価格に関するベイジアンCARTモデルについて紹介する。これらのモデルの適用可能性を説明するため、いくつかのシミュレーションと実際の保険データについて論じる。
論文参考訳（メタデータ） (2023-03-03T13:48:35Z)
Adaptive LASSO estimation for functional hidden dynamic geostatistical model [69.10717733870575]
関数型隠れ統計モデル(f-HD)のためのペナル化極大推定器(PMLE)に基づく新しいモデル選択アルゴリズムを提案する。このアルゴリズムは反復最適化に基づいており、適応最小限の収縮・セレクタ演算子(GMSOLAS)ペナルティ関数を用いており、これは不給付のf-HD最大線量推定器によって得られる。
論文参考訳（メタデータ） (2022-08-10T19:17:45Z)
Learning Summary Statistics for Bayesian Inference with Autoencoders [58.720142291102135]
我々は,ディープニューラルネットワークに基づくオートエンコーダの内部次元を要約統計として利用する。パラメータ関連情報を全て符号化するエンコーダのインセンティブを作成するため,トレーニングデータの生成に使用した暗黙的情報にデコーダがアクセスできるようにする。
論文参考訳（メタデータ） (2022-01-28T12:00:31Z)
X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。両世界の力を生かすために,我々は新しいX-モデルを提案する。 X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文参考訳（メタデータ） (2021-10-09T13:56:48Z)
Synthetic Dataset Generation of Driver Telematics [0.0]
本稿では、類似の現実保険データセットからエミュレートされたドライバーテレマティクスの合成データセットの作成に使用されるテクニックについて述べる。機械学習アルゴリズムを使った3段階のプロセスに従う。得られたデータセットは、Poissonとガンマ回帰モデルが各データに適合する場合に、合成データセットと実データセットを比較して評価する。
論文参考訳（メタデータ） (2021-01-30T15:52:56Z)
When stakes are high: balancing accuracy and transparency with Model-Agnostic Interpretable Data-driven suRRogates [0.0]
銀行や保険のような高度に規制された産業は、透明性のある意思決定アルゴリズムを求めている。モデル非依存型解釈型データ駆動型SuRRogate(maidrr)の開発手順を提案する。知識は部分依存効果によってブラックボックスから抽出される。これにより、自動変数選択による特徴空間のセグメンテーションが実現される。
論文参考訳（メタデータ） (2020-07-14T08:10:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。