論文の概要: Starting Off on the Wrong Foot: Pitfalls in Data Preparation
- arxiv url: http://arxiv.org/abs/2603.18190v1
- Date: Wed, 18 Mar 2026 18:37:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.805522
- Title: Starting Off on the Wrong Foot: Pitfalls in Data Preparation
- Title(参考訳): Wrongfootのスタート:データ準備における落とし穴
- Authors: Jiayi Guo, Panyi Dong, Zhiyu Quan,
- Abstract要約: 本研究は,従来のデータ作成手法が信頼性の低い不安定な結果をもたらす場合が多いことを示す。
本稿では,最近の2つの統計的進歩を活かした新しいデータ準備フレームワークを提案する。
統計的に厳密なデータ作成手法を取り入れることで,モデルの堅牢性と解釈可能性を大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 6.654947289826598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When working with real-world insurance data, practitioners often encounter challenges during the data preparation stage that can undermine the statistical validity and reliability of downstream modeling. This study illustrates that conventional data preparation procedures such as random train-test partitioning, often yield unreliable and unstable results when confronted with highly imbalanced insurance loss data. To mitigate these limitations, we propose a novel data preparation framework leveraging two recent statistical advancements: support points for representative data splitting to ensure distributional consistency across partitions, and the Chatterjee correlation coefficient for initial, non-parametric feature screening to capture feature relevance and dependence structure. We further integrate these theoretical advances into a unified, efficient framework that also incorporates missing-data handling, and embed this framework within our custom InsurAutoML pipeline. The performance of the proposed approach is evaluated using both simulated datasets and datasets often cited in the academic literature. Our findings definitively demonstrate that incorporating statistically rigorous data preparation methods not only significantly enhances model robustness and interpretability but also substantially reduces computational resource requirements across diverse insurance loss modeling tasks. This work provides a crucial methodological upgrade for achieving reliable results in high stakes insurance applications.
- Abstract(参考訳): 現実の保険データを扱う場合、実践者は、下流モデリングの統計的妥当性と信頼性を損なう可能性のあるデータ準備段階で、しばしば困難に直面する。
本研究は、不均衡な保険損失データに直面する場合、ランダムな列車-テスト分割などの従来のデータ準備手順が、信頼できない、不安定な結果をもたらす場合が多いことを示す。
これらの制限を緩和するために、分割間の分散一貫性を確保するために代表データ分割のサポートポイントと、特徴の関連性や依存構造を捉えるために、初期的、非パラメトリックな特徴スクリーニングのためのチャタジー相関係数の2つの統計的進歩を利用した新しいデータ準備フレームワークを提案する。
さらに、これらの理論的進歩を、不足データのハンドリングを組み込んだ統一的で効率的なフレームワークに統合し、このフレームワークを当社のカスタムInsurAutoMLパイプラインに組み込んでいます。
提案手法の性能は,学術文献によく引用されるシミュレーションデータセットとデータセットの両方を用いて評価する。
その結果, 統計的に厳密なデータ作成手法の導入は, モデルの堅牢性と解釈可能性を大幅に向上させるだけでなく, 多様な保険損失モデリングタスクにおける計算資源の要求を大幅に低減させることを示した。
この作業は、高利息保険申請において信頼性の高い結果を達成するための重要な方法論的アップグレードを提供する。
関連論文リスト
- Uncertainty-Aware Data-Efficient AI: An Information-Theoretic Perspective [48.073471560778984]
ロボット工学、電気通信、医療といったコンテキスト固有のアプリケーションでは、人工知能システムは訓練データに制限があるという課題に直面していることが多い。
本稿では,2つの相補的手法を用いて,データ制限体制に対処する形式的手法について検討する。
論文 参考訳(メタデータ) (2025-12-04T21:44:22Z) - Cross-Learning from Scarce Data via Multi-Task Constrained Optimization [70.90607489166648]
本稿では,データ不足を克服するマルチタスク・エンフクロス学習フレームワークを提案する。
我々はこの結合推定を制約付き最適化問題として定式化する。
本研究では, 画像分類や伝染病の伝播を含む実データを用いて, クロスラーニング手法の有効性を示す。
論文 参考訳(メタデータ) (2025-11-17T18:35:59Z) - Improving the Generation and Evaluation of Synthetic Data for Downstream Medical Causal Inference [89.5628648718851]
因果推論は医療介入の開発と評価に不可欠である。
現実の医療データセットは、規制障壁のためアクセスが難しいことが多い。
本稿では,医学における治療効果分析のための新しい合成データ生成法STEAMを提案する。
論文 参考訳(メタデータ) (2025-10-21T16:16:00Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Frugal, Flexible, Faithful: Causal Data Simulation via Frengression [4.446798246007668]
本研究は,Fragalパラメータ化の深い生成的実現であるFragressionを紹介する。
frengressionは正確な推定と、時間変化データのフレキシブルで忠実なシミュレーションを提供する。
我々は、この枠組みが因果的マージンモデリングのための生成的アプローチに新たな研究を巻き起こすことを期待している。
論文 参考訳(メタデータ) (2025-08-01T18:43:59Z) - A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。
モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。
一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文 参考訳(メタデータ) (2025-02-26T06:18:13Z) - A Conformal Approach to Feature-based Newsvendor under Model Misspecification [2.801095519296785]
共形予測にインスパイアされたモデルフリーで分散フリーなフレームワークを提案する。
ワシントンD.C.のCapital Bikeshareプログラムのシミュレーションデータと実世界のデータセットを用いて,我々のフレームワークを検証する。
論文 参考訳(メタデータ) (2024-12-17T18:34:43Z) - MIBP-Cert: Certified Training against Data Perturbations with Mixed-Integer Bilinear Programs [50.41998220099097]
トレーニング中のデータエラー、汚職、中毒攻撃は、現代のAIシステムの信頼性に大きな脅威をもたらす。
混合整数双線形プログラミング(MIBP)に基づく新しい認証手法MIBP-Certを紹介する。
摂動データや操作データを通じて到達可能なパラメータの集合を計算することで、可能なすべての結果を予測することができ、堅牢性を保証することができる。
論文 参考訳(メタデータ) (2024-12-13T14:56:39Z) - Ranking and Combining Latent Structured Predictive Scores without Labeled Data [2.5064967708371553]
本稿では,新しい教師なしアンサンブル学習モデル(SUEL)を提案する。
連続的な予測スコアを持つ予測器のセット間の依存関係を利用して、ラベル付きデータなしで予測器をランク付けし、それらをアンサンブルされたスコアに重み付けする。
提案手法の有効性は、シミュレーション研究とリスク遺伝子発見の現実的応用の両方を通じて厳密に評価されている。
論文 参考訳(メタデータ) (2024-08-14T20:14:42Z) - Perturbation-Assisted Sample Synthesis: A Novel Approach for Uncertainty
Quantification [3.175239447683357]
本稿では、摂動支援サンプル合成(PASS)法により生成された合成データを利用した新しい摂動支援推論(PAI)フレームワークを提案する。
このフレームワークは、複雑なデータシナリオ、特に非構造化データの不確実性定量化に焦点を当てている。
我々は、画像合成、感情語分析、マルチモーダル推論、予測区間の構築など、様々な分野に適用することで、複雑なデータ駆動タスクにおける不確実性定量化を推し進める上で、PAIの有効性を実証する。
論文 参考訳(メタデータ) (2023-05-30T01:01:36Z) - Training Deep Normalizing Flow Models in Highly Incomplete Data
Scenarios with Prior Regularization [13.985534521589257]
ハイパウシティシナリオにおけるデータ分布の学習を容易にする新しいフレームワークを提案する。
提案手法は,不完全データから学習過程を協調最適化タスクとして行うことに由来する。
論文 参考訳(メタデータ) (2021-04-03T20:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。