論文の概要: Predicting person-level injury severity using crash narratives: A balanced approach with roadway classification and natural language process techniques
- arxiv url: http://arxiv.org/abs/2509.07845v1
- Date: Tue, 09 Sep 2025 15:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.374975
- Title: Predicting person-level injury severity using crash narratives: A balanced approach with roadway classification and natural language process techniques
- Title(参考訳): 事故物語を用いた人レベルの傷害重症度予測:道路分類と自然言語処理技術を用いたバランスのとれたアプローチ
- Authors: Mohammad Zana Majidi, Sajjad Karimi, Teng Wang, Robert Kluger, Reginald Souleyrette,
- Abstract要約: 本研究は, 現場の警察官が, 事故の重大度を予測するために, 構造的クラッシュデータと組み合わせた場合の, 非構造的クラッシュ物語の付加価値について検討した。
意味を抽出するために広く使われている2つの自然言語処理技術であるTF-IDF(Term Frequency-Inverse Document Frequency)とWord2Vec(Word2Vec)が用いられた。
102の機械学習モデルは、構造化特徴と物語に基づく特徴を組み合わせることによって開発された。
- 参考スコア(独自算出の注目度): 5.145333626258798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting injuries and fatalities in traffic crashes plays a critical role in enhancing road safety, improving emergency response, and guiding public health interventions. This study investigates the added value of unstructured crash narratives (written by police officers at the scene) when combined with structured crash data to predict injury severity. Two widely used Natural Language Processing (NLP) techniques, Term Frequency-Inverse Document Frequency (TF-IDF) and Word2Vec, were employed to extract semantic meaning from the narratives, and their effectiveness was compared. To address the challenge of class imbalance, a K-Nearest Neighbors-based oversampling method was applied to the training data prior to modeling. The dataset consists of crash records from Kentucky spanning 2019 to 2023. To account for roadway heterogeneity, three road classification schemes were used: (1) eight detailed functional classes (e.g., Urban Two-Lane, Rural Interstate, Urban Multilane Divided), (2) four broader paired categories (e.g., Urban vs. Rural, Freeway vs. Non-Freeway), and (3) a unified dataset without classification. A total of 102 machine learning models were developed by combining structured features and narrative-based features using the two NLP techniques alongside three ensemble algorithms: XGBoost, Random Forest, and AdaBoost. Results demonstrate that models incorporating narrative data consistently outperform those relying solely on structured data. Among all combinations, TF-IDF coupled with XGBoost yielded the most accurate predictions in most subgroups. The findings highlight the power of integrating textual and structured crash information to enhance person-level injury prediction. This work offers a practical and adaptable framework for transportation safety professionals to improve crash severity modeling, guide policy decisions, and design more effective countermeasures.
- Abstract(参考訳): 交通事故による負傷と死亡の予測は、道路安全の向上、緊急対応の改善、公衆衛生介入の指導において重要な役割を担っている。
本研究は, 現場の警察官が, 構造的事故データと組み合わせて損傷の重大度を予測する際に, 非構造的事故物語の付加価値について検討した。
2つの自然言語処理技術であるTF-IDF(Term Frequency-Inverse Document Frequency)とWord2Vec(Word2Vec)を用いて、物語から意味的意味を抽出し、その効果を比較した。
クラス不均衡に対処するため,K-Nearest Neighborsを用いたオーバーサンプリング法をトレーニングデータに適用した。
このデータセットは、2019年から2023年までのケンタッキー州のクラッシュ記録で構成されている。
道路の不均一性を考慮した道路分類手法として,(1)詳細な機能クラス(例,都市2車線,農村間,都市多車線分割)8種,(2)広義の2種(例,都市対農村,フリーウェイ対非自由道路)4種,(3)分類なしの統一データセットの3種を用いた。
XGBoost、Random Forest、AdaBoostの3つのアンサンブルアルゴリズムと2つのNLP技術を用いて、構造化特徴と物語に基づく特徴を組み合わせることで、合計102の機械学習モデルを開発した。
その結果、物語データを組み込んだモデルは、構造化データのみに依存するモデルよりも一貫して優れていることが示された。
すべての組み合わせの中で、TF-IDFはXGBoostと結合し、ほとんどの部分群で最も正確な予測を得た。
本研究は,テキストと構造化されたクラッシュ情報を統合することによって,人体レベルの損傷予測を向上する能力を強調した。
この研究は、事故の深刻度モデリングの改善、政策決定の指針、より効果的な対策設計のための、輸送安全専門家のための実用的で適応可能な枠組みを提供する。
関連論文リスト
- Predicting and Explaining Traffic Crash Severity Through Crash Feature Selection [1.0941365324532635]
この研究は、オハイオ州で6~2022年に起きた事故に300万人以上の人が関わったデータセットを紹介します。
主な貢献は、自動機械学習(AutoML)と説明可能な人工知能(AI)を組み合わせて、深刻なクラッシュに関連する主要なリスク要因を特定し、解釈する、透過的で再現可能な方法論である。
主な特徴は、人口統計、環境、車両、人的および運用上のカテゴリーで、位置タイプや投稿速度、居住年齢の最小化、クレーシュ前の行動などが含まれる。
論文 参考訳(メタデータ) (2025-08-15T14:31:26Z) - Identification of Potentially Misclassified Crash Narratives using Machine Learning (ML) and Deep Learning (DL) [0.0]
本研究は,警察報告物語における交差点関連事故の誤分類検出における機械学習(ML)および深層学習(DL)手法の有効性について検討した。
モデルパフォーマンスは、潜在的に分類されていない物語のエキスパートレビューに対して体系的に検証された。
我々は,自動分類と目標とする専門家レビューを組み合わせたハイブリッドアプローチが,クラッシュデータ品質を改善するための実践的手法を提供すると結論付けた。
論文 参考訳(メタデータ) (2025-07-03T17:26:27Z) - Overtake Detection in Trucks Using CAN Bus Signals: A Comparative Study of Machine Learning Methods [51.28632782308621]
ボルボグループが提供する5台の車載トラックから収集した制御エリアネットワーク(CAN)バスデータを用いたオーバーテイク検出に焦点を当てた。
車両操作検出、ニューラルネットワーク(ANN)、ランダムフォレスト(RF)、サポートベクトルマシン(SVM)の3つの共通分類器の評価を行った。
当社のパートラック分析では、特にオーバーテイクにおいて、車両毎のトレーニングデータの量に依存する分類精度も明らかにしています。
論文 参考訳(メタデータ) (2025-07-01T09:20:41Z) - Enhancing Traffic Accident Classifications: Application of NLP Methods for City Safety [41.76653295869846]
ミュンヘンの交通事故を分析し、異なるタイプの事故を区別するパターンと特徴を特定する。
データセットは、位置、時間、気象条件などの構造化された表形式の特徴と、各事故の状況を詳述した構造化されていない自由テキスト記述の両方で構成されている。
ラベルの信頼性を評価するために,トピックモデリングや少数ショット学習などのNLP手法を適用し,ラベル付け過程の矛盾を明らかにする。
論文 参考訳(メタデータ) (2025-06-11T14:50:49Z) - CrashSage: A Large Language Model-Centered Framework for Contextual and Interpretable Traffic Crash Analysis [0.46040036610482665]
道路事故は毎年130万人が死亡し、世界経済の損失は18兆ドルを超えたと主張している。
CrashSageは, 4つの重要なイノベーションを通じて, クラッシュ解析とモデリングを促進するために設計された, LLM(Large Language Model)中心のフレームワークである。
論文 参考訳(メタデータ) (2025-05-08T00:23:18Z) - Learning Traffic Crashes as Language: Datasets, Benchmarks, and What-if Causal Analyses [76.59021017301127]
我々は,CrashEventという大規模トラフィッククラッシュ言語データセットを提案し,実世界のクラッシュレポート19,340を要約した。
さらに,クラッシュイベントの特徴学習を,新たなテキスト推論問題として定式化し,さらに様々な大規模言語モデル(LLM)を微調整して,詳細な事故結果を予測する。
実験の結果, LLMに基づくアプローチは事故の重大度を予測できるだけでなく, 事故の種類を分類し, 損害を予測できることがわかった。
論文 参考訳(メタデータ) (2024-06-16T03:10:16Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Generate, Discriminate and Contrast: A Semi-Supervised Sentence
Representation Learning Framework [68.04940365847543]
本稿では,大規模未ラベルデータを効果的に活用する半教師付き文埋め込みフレームワークGenSEを提案する。
1) 生成: 生成: 生成/識別器モデルはオープンドメインの未ラベルコーパスから文ペアを合成するために共同で訓練される; 2) 識別: ノイズのある文ペアは識別器によってフィルタリングされ、高品質な正と負の文ペアを取得する; 3) コントラスト: 注釈付きデータと合成されたデータの両方を用いて文表現を学習するために、プロンプトベースのコントラクティブアプローチが提示される。
論文 参考訳(メタデータ) (2022-10-30T10:15:21Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - A model for traffic incident prediction using emergency braking data [77.34726150561087]
道路交通事故予測におけるデータ不足の根本的な課題を、事故の代わりに緊急ブレーキイベントをトレーニングすることで解決します。
メルセデス・ベンツ車両の緊急ブレーキデータに基づくドイツにおける交通事故予測モデルを実装したプロトタイプを提案する。
論文 参考訳(メタデータ) (2021-02-12T18:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。