論文の概要: Synthetic Dataset Generation of Driver Telematics
- arxiv url: http://arxiv.org/abs/2102.00252v1
- Date: Sat, 30 Jan 2021 15:52:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 16:11:02.063446
- Title: Synthetic Dataset Generation of Driver Telematics
- Title(参考訳): ドライバテレマティクスの合成データセット生成
- Authors: Banghee So, Jean-Philippe Boucher, Emiliano A. Valdez
- Abstract要約: 本稿では、類似の現実保険データセットからエミュレートされたドライバーテレマティクスの合成データセットの作成に使用されるテクニックについて述べる。
機械学習アルゴリズムを使った3段階のプロセスに従う。
得られたデータセットは、Poissonとガンマ回帰モデルが各データに適合する場合に、合成データセットと実データセットを比較して評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article describes techniques employed in the production of a synthetic
dataset of driver telematics emulated from a similar real insurance dataset.
The synthetic dataset generated has 100,000 policies that included observations
about driver's claims experience together with associated classical risk
variables and telematics-related variables. This work is aimed to produce a
resource that can be used to advance models to assess risks for usage-based
insurance. It follows a three-stage process using machine learning algorithms.
The first stage is simulating values for the number of claims as multiple
binary classifications applying feedforward neural networks. The second stage
is simulating values for aggregated amount of claims as regression using
feedforward neural networks, with number of claims included in the set of
feature variables. In the final stage, a synthetic portfolio of the space of
feature variables is generated applying an extended $\texttt{SMOTE}$ algorithm.
The resulting dataset is evaluated by comparing the synthetic and real datasets
when Poisson and gamma regression models are fitted to the respective data.
Other visualization and data summarization produce remarkable similar
statistics between the two datasets. We hope that researchers interested in
obtaining telematics datasets to calibrate models or learning algorithms will
find our work valuable.
- Abstract(参考訳): 本稿では、類似の現実保険データセットからエミュレートされたドライバーテレマティクスの合成データセットの作成に使用されるテクニックについて述べる。
生成された合成データセットは、10万のポリシーを持ち、ドライバーのクレームに関する観察と関連する古典的リスク変数とテレマティクス関連の変数を含んでいる。
この研究は、使用ベースの保険のリスクを評価するためのモデルの開発に使用できるリソースの創出を目的としている。
機械学習アルゴリズムを使った3段階のプロセスに従う。
第1段階では、フィードフォワードニューラルネットワークを適用した複数のバイナリ分類としてクレーム数の値をシミュレートする。
第2段階は、フィードフォワードニューラルネットワークによる回帰として集約されたクレームの値のシミュレーションであり、特徴変数のセットに含まれるクレームの数である。
最終段階では、拡張された$\texttt{SMOTE}$アルゴリズムを用いて、特徴変数の空間の合成ポートフォリオを生成する。
得られたデータセットは、poissonおよびgamma回帰モデルが各データに適合する場合、合成データセットと実データセットを比較して評価される。
その他の視覚化とデータの要約は、2つのデータセット間で顕著な類似の統計を生成する。
モデルや学習アルゴリズムをキャリブレーションするためのテレマティクスデータセットの取得に関心のある研究者が、私たちの仕事に価値があると期待しています。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Trading Off Scalability, Privacy, and Performance in Data Synthesis [11.698554876505446]
a) Howsoエンジンを導入し、(b)ランダムプロジェクションに基づく合成データ生成フレームワークを提案する。
Howsoエンジンが生成する合成データは、プライバシーと正確性に優れており、その結果、総合的なスコアが最高の結果となる。
提案するランダム・プロジェクション・ベース・フレームワークは,高い精度で合成データを生成することができ,スケーラビリティが最速である。
論文 参考訳(メタデータ) (2023-12-09T02:04:25Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - BeCAPTCHA-Type: Biometric Keystroke Data Generation for Improved Bot
Detection [63.447493500066045]
本研究では,キーストローク生体データ合成のためのデータ駆動学習モデルを提案する。
提案手法は,ユニバーサルモデルとユーザ依存モデルに基づく2つの統計的手法と比較する。
実験フレームワークでは16万件の被験者から1億3600万件のキーストロークイベントのデータセットについて検討している。
論文 参考訳(メタデータ) (2022-07-27T09:26:15Z) - CARLA-GeAR: a Dataset Generator for a Systematic Evaluation of
Adversarial Robustness of Vision Models [61.68061613161187]
本稿では,合成データセットの自動生成ツールであるCARLA-GeARについて述べる。
このツールは、Python APIを使用して、CARLAシミュレータ上に構築されており、自律運転のコンテキストにおいて、いくつかのビジョンタスク用のデータセットを生成することができる。
本稿では,CARLA-GeARで生成されたデータセットが,現実世界の敵防衛のベンチマークとして今後どのように利用されるかを示す。
論文 参考訳(メタデータ) (2022-06-09T09:17:38Z) - Learning Summary Statistics for Bayesian Inference with Autoencoders [58.720142291102135]
我々は,ディープニューラルネットワークに基づくオートエンコーダの内部次元を要約統計として利用する。
パラメータ関連情報を全て符号化するエンコーダのインセンティブを作成するため,トレーニングデータの生成に使用した暗黙的情報にデコーダがアクセスできるようにする。
論文 参考訳(メタデータ) (2022-01-28T12:00:31Z) - Bayesian Topic Regression for Causal Inference [3.9082355007261427]
観測テキストデータを用いた因果推論は、多くの研究領域で人気が高まっている。
本稿では,テキストと数値情報の両方を用いて結果変数をモデル化するベイズ的トピック回帰モデルを提案する。
論文 参考訳(メタデータ) (2021-09-11T16:40:43Z) - MLReal: Bridging the gap between training on synthetic data and real
data applications in machine learning [1.9852463786440129]
本稿では,実際のデータ特徴を持つ合成データの教師付きトレーニングを強化するための新しいアプローチについて述べる。
トレーニング段階では、入力データは合成ドメインから、自動相関データは実ドメインからである。
推論/アプリケーション段階では、入力データは実サブセットドメインからであり、自己相関区間の平均は合成データサブセットドメインからである。
論文 参考訳(メタデータ) (2021-09-11T14:43:34Z) - Towards Synthetic Multivariate Time Series Generation for Flare
Forecasting [5.098461305284216]
データ駆動・レアイベント予測アルゴリズムのトレーニングにおける制限要因の1つは、関心のあるイベントの不足である。
本研究では,データインフォームド・オーバーサンプリングを行う手段として,条件付き生成逆数ネットワーク(CGAN)の有用性を検討する。
論文 参考訳(メタデータ) (2021-05-16T22:23:23Z) - Two-step penalised logistic regression for multi-omic data with an
application to cardiometabolic syndrome [62.997667081978825]
我々は,各層で変数選択を行うマルチオミックロジスティック回帰に対する2段階のアプローチを実装した。
私たちのアプローチは、可能な限り多くの関連する予測子を選択することを目標とすべきです。
提案手法により,分子レベルでの心筋メタボリックシンドロームの特徴を同定することができる。
論文 参考訳(メタデータ) (2020-08-01T10:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。