論文の概要: A Generative Deep Learning Approach for Crash Severity Modeling with Imbalanced Data
- arxiv url: http://arxiv.org/abs/2404.02187v1
- Date: Tue, 2 Apr 2024 16:07:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 19:38:40.503142
- Title: A Generative Deep Learning Approach for Crash Severity Modeling with Imbalanced Data
- Title(参考訳): 不均衡データを用いた衝突重大度モデリングのための生成的深層学習手法
- Authors: Junlan Chen, Ziyuan Pu, Nan Zheng, Xiao Wen, Hongliang Ding, Xiucheng Guo,
- Abstract要約: 本研究では,条件付きタブラリGANに基づくクラッシュデータ生成手法を提案する。
分類と解釈の性能を推定するために、クラッシュ重大度モデルを用いる。
以上の結果から,CTGAN-RUが生成した合成データを用いた衝突重大度モデリングは,他の再サンプリング法により生成された原データや合成データよりも優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 6.169163527464771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crash data is often greatly imbalanced, with the majority of crashes being non-fatal crashes, and only a small number being fatal crashes due to their rarity. Such data imbalance issue poses a challenge for crash severity modeling since it struggles to fit and interpret fatal crash outcomes with very limited samples. Usually, such data imbalance issues are addressed by data resampling methods, such as under-sampling and over-sampling techniques. However, most traditional and deep learning-based data resampling methods, such as synthetic minority oversampling technique (SMOTE) and generative Adversarial Networks (GAN) are designed dedicated to processing continuous variables. Though some resampling methods have improved to handle both continuous and discrete variables, they may have difficulties in dealing with the collapse issue associated with sparse discrete risk factors. Moreover, there is a lack of comprehensive studies that compare the performance of various resampling methods in crash severity modeling. To address the aforementioned issues, the current study proposes a crash data generation method based on the Conditional Tabular GAN. After data balancing, a crash severity model is employed to estimate the performance of classification and interpretation. A comparative study is conducted to assess classification accuracy and distribution consistency of the proposed generation method using a 4-year imbalanced crash dataset collected in Washington State, U.S. Additionally, Monte Carlo simulation is employed to estimate the performance of parameter and probability estimation in both two- and three-class imbalance scenarios. The results indicate that using synthetic data generated by CTGAN-RU for crash severity modeling outperforms using original data or synthetic data generated by other resampling methods.
- Abstract(参考訳): クラッシュデータはしばしば非常に不均衡であり、ほとんどのクラッシュは致命的でないクラッシュであり、少数のクラッシュはその希少性のために致命的なクラッシュである。
このようなデータ不均衡問題は、非常に限られたサンプルで致命的なクラッシュ結果の適合と解釈に苦慮しているため、クラッシュ重大度モデリングの課題となる。
通常、そのようなデータ不均衡問題はアンダーサンプリングやオーバーサンプリングといったデータ再サンプリング手法によって解決される。
しかし、合成マイノリティオーバーサンプリング技術(SMOTE)やGAN(Generative Adversarial Networks)など、従来の深層学習に基づくデータ再サンプリング手法は、連続変数の処理に特化している。
いくつかの再サンプリング法は、連続変数と離散変数の両方を扱うように改善されているが、希少な離散リスク要因に関連する崩壊問題を扱うのに困難がある可能性がある。
さらに,事故重大度モデリングにおける種々の再サンプリング手法の性能を比較する総合的な研究は乏しい。
上記の問題に対処するため,本研究では,条件付きタブラリGANに基づくクラッシュデータ生成手法を提案する。
データバランシングの後、分類と解釈のパフォーマンスを推定するためにクラッシュ重大度モデルが使用される。
米国ワシントン州で収集された4年間の不均衡なクラッシュデータセットを用いて,提案手法の分類精度と分布の整合性を評価するために,モンテカルロシミュレーションを用いて,二級および三級の不均衡シナリオにおけるパラメータおよび確率推定の性能を推定する。
その結果,CTGAN-RUが生成した合成データを用いて,元のデータや他の再サンプリング手法によって生成された合成データを用いて,衝突重大度モデリングの精度が向上した。
関連論文リスト
- Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Sample, estimate, aggregate: A recipe for causal discovery foundation models [28.116832159265964]
我々は、古典因果探索アルゴリズムの出力からより大きな因果グラフを予測することを学ぶ教師付きモデルを訓練する。
我々のアプローチは、古典的手法の出力における典型的なエラーがデータセット間で比較できるという観察によって実現されている。
実データおよび合成データに関する実験では、このモデルが不特定性や分布シフトに直面して高い精度を維持することを示した。
論文 参考訳(メタデータ) (2024-02-02T21:57:58Z) - SCME: A Self-Contrastive Method for Data-free and Query-Limited Model
Extraction Attack [18.998300969035885]
モデル抽出は、代替モデル上で逆例を生成することによって、ターゲットモデルを騙す。
本稿では,偽データの合成におけるクラス間およびクラス内多様性を考慮した,SCME という新しいデータフリーモデル抽出手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T10:41:45Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Effective Class-Imbalance learning based on SMOTE and Convolutional
Neural Networks [0.1074267520911262]
不均衡データ(ID)は、機械学習(ML)モデルから満足な結果を得るための問題である。
本稿では,Deep Neural Networks(DNN)とConvolutional Neural Networks(CNN)に基づく手法の有効性を検討する。
信頼性の高い結果を得るために,ランダムにシャッフルしたデータ分布を用いて100回実験を行った。
論文 参考訳(メタデータ) (2022-09-01T07:42:16Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Towards Synthetic Multivariate Time Series Generation for Flare
Forecasting [5.098461305284216]
データ駆動・レアイベント予測アルゴリズムのトレーニングにおける制限要因の1つは、関心のあるイベントの不足である。
本研究では,データインフォームド・オーバーサンプリングを行う手段として,条件付き生成逆数ネットワーク(CGAN)の有用性を検討する。
論文 参考訳(メタデータ) (2021-05-16T22:23:23Z) - Oversampling Adversarial Network for Class-Imbalanced Fault Diagnosis [12.526197448825968]
クラス不均衡問題は、データをタイムリーに予測し分類できる堅牢な学習システムを必要とする。
本稿では,同時分類と故障検出のための新しい対向ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T10:12:07Z) - Improving Maximum Likelihood Training for Text Generation with Density
Ratio Estimation [51.091890311312085]
本稿では,テキスト生成で遭遇する大規模なサンプル空間において,効率よく安定な自動回帰シーケンス生成モデルのトレーニング手法を提案する。
本手法は,品質と多様性の両面で,最大類似度推定や他の最先端シーケンス生成モデルよりも安定に優れている。
論文 参考訳(メタデータ) (2020-07-12T15:31:24Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Instability, Computational Efficiency and Statistical Accuracy [101.32305022521024]
我々は,人口レベルでのアルゴリズムの決定論的収束率と,$n$サンプルに基づく経験的対象に適用した場合の(不安定性)の間の相互作用に基づいて,統計的精度を得るフレームワークを開発する。
本稿では,ガウス混合推定,非線形回帰モデル,情報的非応答モデルなど,いくつかの具体的なモデルに対する一般結果の応用について述べる。
論文 参考訳(メタデータ) (2020-05-22T22:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。