論文の概要: Amputation-imputation based generation of synthetic tabular data for ratemaking
- arxiv url: http://arxiv.org/abs/2509.02171v1
- Date: Tue, 02 Sep 2025 10:23:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.995988
- Title: Amputation-imputation based generation of synthetic tabular data for ratemaking
- Title(参考訳): 修正インプットに基づくレートメイキングのための合成表データの生成
- Authors: Yevhen Havrylenko, Meelis Käärik, Artur Tuttar,
- Abstract要約: Actuarial ratemakingは高品質なデータに依存するが、そのようなデータへのアクセスは、新しいデータを取得するコストやプライバシー上の懸念などによって制限されることが多い。
本稿では,これらの問題に対する潜在的な解決策として,合成データ生成について検討する。
本稿では,オープンソースデータセットを用いて,変分オートエンコーダや条件付きタブララ生成支援ネットワークといった他の生成モデルと比較して,MICEに基づくモデルの評価を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Actuarial ratemaking depends on high-quality data, yet access to such data is often limited by the cost of obtaining new data, privacy concerns, etc. In this paper, we explore synthetic-data generation as a potential solution to these issues. In addition to discussing generative methods previously studied in the actuarial literature, we introduce to the insurance community another approach based on Multiple Imputation by Chained Equations (MICE). We present a comparative study using an open-source dataset and evaluating MICE-based models against other generative models like Variational Autoencoders and Conditional Tabular Generative Adversarial Networks. We assess how well synthetic data preserves the original marginal distributions of variables as well as the multivariate relationships among covariates. We also investigate the consistency between Generalized Linear Models (GLMs) trained on synthetic data with GLMs trained on the original data. Furthermore, we assess the ease of use of each generative approach and study the impact of augmenting original data with synthetic data on the performance of GLMs for predicting claim counts. Our results highlight the potential of MICE-based methods in creating high-quality tabular data while being more user-friendly than the other methods.
- Abstract(参考訳): Actuarial ratemakingは高品質なデータに依存するが、そのようなデータへのアクセスは、新しいデータを取得するコストやプライバシー上の懸念などによって制限されることが多い。
本稿では,これらの問題に対する潜在的な解決策として,合成データ生成について検討する。
本研究は, 従来, アクチュアリダル文献で研究されていた生成手法の議論に加えて, 連鎖方程式による多重計算に基づく別のアプローチを, 保険コミュニティに紹介する。
本稿では,オープンソースデータセットを用いて,変分オートエンコーダや条件付きタブララ生成支援ネットワークといった他の生成モデルと比較して,MICEに基づくモデルの評価を行う。
我々は,共変量間の多変量関係だけでなく,変数のもともとの辺縁分布の合成データがどれだけよく保存されているかを評価する。
また、合成データに基づいて訓練された一般化線形モデル(GLM)と、原データに基づいて訓練されたGLMとの整合性についても検討した。
さらに,各生成手法の使いやすさを評価し,合成データによる原データの増大がGLMの性能に及ぼす影響について検討し,クレーム数を予測する。
本研究は, 高品質な表表データを作成する上で, MICEベースの手法が他の手法よりもユーザフレンドリであることを示すものである。
関連論文リスト
- Using Imperfect Synthetic Data in Downstream Inference Tasks [50.40949503799331]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を改善することができる。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Assessing Generative Models for Structured Data [0.0]
本稿では,データ内のカラム間依存関係を調べることで,実データに対して合成データを評価するための厳密な手法を提案する。
大規模言語モデル (GPT-2) は,数発のプロンプトによってクエリされた場合と微調整された場合の両方で,GAN (CTGAN) モデルは元の実データに類似した依存関係を持つデータを生成しないことがわかった。
論文 参考訳(メタデータ) (2025-03-26T18:19:05Z) - Large Language Models for Market Research: A Data-augmentation Approach [3.3199591445531453]
大規模言語モデル(LLM)は、複雑な自然言語処理タスクに優れ、人工知能を変革した。
近年の研究では、LLMが生成するデータと人間のデータの間に大きなギャップが見られ、両者を置換する際にバイアスが発生している。
コンジョイント解析において,LLM生成データと実データとを効率的に統合する新しい統計データ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-12-26T22:06:29Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - MMM and MMMSynth: Clustering of heterogeneous tabular data, and synthetic data generation [0.0]
我々は、クラスタリングと合成データ生成という異種データセットに関連する2つのタスクに対して、新しいアルゴリズムを提供する。
合成異種データのクラスタ決定において,新しいEMベースのクラスタリングアルゴリズムであるMMMが,標準的なアルゴリズムより優れていることを示す。
また、入力データを事前クラスタリングし、クラスタワイズ合成データを生成する合成データ生成アルゴリズムであるMMMsynthを実証する。
論文 参考訳(メタデータ) (2023-10-30T11:26:01Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。