論文の概要: Predicting Seriousness of Injury in a Traffic Accident: A New Imbalanced
Dataset and Benchmark
- arxiv url: http://arxiv.org/abs/2205.10441v1
- Date: Fri, 20 May 2022 21:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 15:04:51.796806
- Title: Predicting Seriousness of Injury in a Traffic Accident: A New Imbalanced
Dataset and Benchmark
- Title(参考訳): 交通事故における傷害の重大性予測--新しい不均衡データセットとベンチマーク
- Authors: Paschalis Lagias, George D. Magoulas, Ylli Prifti and Alessandro
Provetti
- Abstract要約: 本稿では,交通事故における傷害の重大性を予測するために,機械学習アルゴリズムの性能を評価する新しいデータセットを提案する。
データセットは、英国運輸省から公開されているデータセットを集約することで作成される。
- 参考スコア(独自算出の注目度): 62.997667081978825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paper introduces a new dataset to assess the performance of machine
learning algorithms in the prediction of the seriousness of injury in a traffic
accident. The dataset is created by aggregating publicly available datasets
from the UK Department for Transport, which are drastically imbalanced with
missing attributes sometimes approaching 50\% of the overall data
dimensionality. The paper presents the data analysis pipeline starting from the
publicly available data of road traffic accidents and ending with predictors of
possible injuries and their degree of severity. It addresses the huge
incompleteness of public data with a MissForest model. The paper also
introduces two baseline approaches to create injury predictors: a supervised
artificial neural network and a reinforcement learning model. The dataset can
potentially stimulate diverse aspects of machine learning research on
imbalanced datasets and the two approaches can be used as baseline references
when researchers test more advanced learning algorithms in this area.
- Abstract(参考訳): 本稿では,交通事故における傷害の深刻度予測における機械学習アルゴリズムの性能を評価するための新しいデータセットを提案する。
データセットは、英国運輸省から公開されているデータセットを集約することで作成されます。
本稿では,道路交通事故の公開データから発生したデータ分析パイプラインについて述べる。
これは、MissForestモデルで公開データの巨大な不完全性に対処する。
また,損傷予測器の作成には,教師付きニューラルネットワークと強化学習モデルという2つのベースラインアプローチも導入した。
このデータセットは、不均衡データセットに関する機械学習研究の多様な側面を刺激する可能性があり、この領域でより高度な学習アルゴリズムをテストする場合、2つのアプローチはベースライン参照として使用できる。
関連論文リスト
- Towards Assessing Data Bias in Clinical Trials [0.0]
医療データセットはデータバイアスの影響を受けます。
データバイアスは現実の歪んだ見方を与え、誤った分析結果をもたらし、結果として決定を下す。
i)データセットに存在する可能性のあるデータバイアスの種類を定義し、(ii)適切なメトリクスでデータバイアスを特徴付け、定量化し、(iii)異なるデータソースに対してデータバイアスを特定し、測定し、緩和するためのガイドラインを提供する。
論文 参考訳(メタデータ) (2022-12-19T17:10:06Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Deeply-Learned Generalized Linear Models with Missing Data [6.302686933168439]
我々は、深く学習された一般化線形モデルの文脈において、欠測データの形式的処理を行う。
我々は、無視できないパターンと無視できないパターンの両方を柔軟に説明できる新しいアーキテクチャ、textitdlglmを提案する。
UCI Machine Learning Repositoryのバンクマーケティングデータセットのケーススタディで締めくくった。
論文 参考訳(メタデータ) (2022-07-18T20:00:13Z) - Resilient Neural Forecasting Systems [10.709321760368137]
産業用機械学習システムは、学術文献でしばしば過小評価されるデータ課題に直面している。
本稿では、労働計画におけるニューラル予測アプリケーションのコンテキストにおけるデータ課題と解決策について論じる。
本稿では,周期的リトレーニング方式によるデータ分布の変化に対処し,この設定におけるモデル安定性の重要性について論じる。
論文 参考訳(メタデータ) (2022-03-16T09:37:49Z) - TRAPDOOR: Repurposing backdoors to detect dataset bias in machine
learning-based genomic analysis [15.483078145498085]
データセット内のグループの下位表現は、特定のグループの不正確な予測につながる可能性があるため、システム的識別問題を悪化させる可能性がある。
本稿では,ニューラルネットワークのバックドアであるTRAPDOORを提案する。
実世界のがんデータセットを用いて、すでに白人個人に対して存在するバイアスでデータセットを分析し、データセットにバイアスを人工的に導入する。
論文 参考訳(メタデータ) (2021-08-14T17:02:02Z) - A model for traffic incident prediction using emergency braking data [77.34726150561087]
道路交通事故予測におけるデータ不足の根本的な課題を、事故の代わりに緊急ブレーキイベントをトレーニングすることで解決します。
メルセデス・ベンツ車両の緊急ブレーキデータに基づくドイツにおける交通事故予測モデルを実装したプロトタイプを提案する。
論文 参考訳(メタデータ) (2021-02-12T18:17:12Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Dropout: Explicit Forms and Capacity Control [57.36692251815882]
各種機械学習問題におけるドロップアウトによるキャパシティ制御について検討する。
ディープラーニングでは、ドロップアウトによるデータ依存型正規化器が、基礎となるディープニューラルネットワークのクラスであるRademacherの複雑さを直接制御していることを示す。
MovieLens, MNIST, Fashion-MNISTなどの実世界のデータセットに関する理論的知見を評価する。
論文 参考訳(メタデータ) (2020-03-06T19:10:15Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。