論文の概要: Identification of Potentially Misclassified Crash Narratives using Machine Learning (ML) and Deep Learning (DL)
- arxiv url: http://arxiv.org/abs/2507.03066v1
- Date: Thu, 03 Jul 2025 17:26:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.571842
- Title: Identification of Potentially Misclassified Crash Narratives using Machine Learning (ML) and Deep Learning (DL)
- Title(参考訳): 機械学習(ML)とディープラーニング(DL)を用いた潜在的に誤分類されたクラッシュ物語の同定
- Authors: Sudesh Bhagat, Ibne Farabi Shihab, Jonathan Wood,
- Abstract要約: 本研究は,警察報告物語における交差点関連事故の誤分類検出における機械学習(ML)および深層学習(DL)手法の有効性について検討した。
モデルパフォーマンスは、潜在的に分類されていない物語のエキスパートレビューに対して体系的に検証された。
我々は,自動分類と目標とする専門家レビューを組み合わせたハイブリッドアプローチが,クラッシュデータ品質を改善するための実践的手法を提供すると結論付けた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This research investigates the efficacy of machine learning (ML) and deep learning (DL) methods in detecting misclassified intersection-related crashes in police-reported narratives. Using 2019 crash data from the Iowa Department of Transportation, we implemented and compared a comprehensive set of models, including Support Vector Machine (SVM), XGBoost, BERT Sentence Embeddings, BERT Word Embeddings, and Albert Model. Model performance was systematically validated against expert reviews of potentially misclassified narratives, providing a rigorous assessment of classification accuracy. Results demonstrated that while traditional ML methods exhibited superior overall performance compared to some DL approaches, the Albert Model achieved the highest agreement with expert classifications (73% with Expert 1) and original tabular data (58%). Statistical analysis revealed that the Albert Model maintained performance levels similar to inter-expert consistency rates, significantly outperforming other approaches, particularly on ambiguous narratives. This work addresses a critical gap in transportation safety research through multi-modal integration analysis, which achieved a 54.2% reduction in error rates by combining narrative text with structured crash data. We conclude that hybrid approaches combining automated classification with targeted expert review offer a practical methodology for improving crash data quality, with substantial implications for transportation safety management and policy development.
- Abstract(参考訳): 本研究は,警察報告物語における交差点関連事故の誤分類検出における機械学習(ML)および深層学習(DL)手法の有効性について検討した。
アイオワ州交通省の2019年のクラッシュデータを用いて、SVM(Support Vector Machine)、XGBoost、BERT Sentence Embeddings、BERT Word Embeddings、Albert Modelなど、包括的なモデルのセットを実装し比較した。
モデル性能は、潜在的に分類されていない物語のエキスパートレビューに対して体系的に検証され、分類精度を厳格に評価した。
その結果、従来のML手法は、いくつかのDL手法よりも優れた全体的な性能を示したが、Albert Modelは専門家分類(73%とエキスパート1)と原表データ(58%)との最も高い一致を達成した。
統計分析により、アルバート模型は、専門家間の整合性に類似した性能水準を維持しており、特に曖昧な物語において、他のアプローチよりも著しく優れていたことが明らかとなった。
本研究は, 複数モーダル統合解析による交通安全研究における重要なギャップに対処し, 物語テキストと構造的クラッシュデータを組み合わせることで, 54.2%の誤り率の低減を実現した。
我々は,自動分類と目標とする専門家レビューを組み合わせたハイブリッドアプローチが,事故データの品質向上のための実践的方法論であり,交通安全管理や政策開発に重大な影響を及ぼすと結論付けた。
関連論文リスト
- AI Generated Text Detection [0.0]
本稿では,従来の機械学習モデルとトランスフォーマーベースアーキテクチャの両方を含む,AIテキスト検出手法の評価を行う。
我々は、HC3とDAIGT v2という2つのデータセットを使用して、統一されたベンチマークを構築し、情報漏洩を防止するためにトピックベースのデータ分割を適用する。
その結果、文脈モデリングは語彙的特徴よりもはるかに優れていることが示され、話題記憶の緩和の重要性が強調された。
論文 参考訳(メタデータ) (2026-01-07T11:18:10Z) - AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research [81.04845910798387]
脅威検出のための自然言語の説明を生成することは、サイバーセキュリティ研究において未解決の問題である。
本稿では,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを紹介する。
アノテーション付きシード(0.9K)データセットや方法論,評価フレームワークなど,100万以上のスクリプトサンプルの完全なデータセットを公開しています。
論文 参考訳(メタデータ) (2025-11-17T13:05:25Z) - Domain-Adapted Pre-trained Language Models for Implicit Information Extraction in Crash Narratives [6.91741018994547]
本研究では,コンパクトなオープンソース言語モデルが,クラッシュ物語からの推論集約的な抽出を支援するかどうかを考察する。
我々は,Low-Rank Adaption (LoRA) とBERTを用いて,タスク固有の知識をLLMに注入するための微調整手法を適用した。
さらなる分析により、微調整されたPLMはよりリッチな物語の詳細をキャプチャし、データセット内のいくつかの誤ラベル付きアノテーションを修正できることが明らかになった。
論文 参考訳(メタデータ) (2025-10-10T14:45:07Z) - Abex-rat: Synergizing Abstractive Augmentation and Adversarial Training for Classification of Occupational Accident Reports [5.58730646214246]
ABEX-RATは、強力な対人訓練で生成データ拡張を相乗化するための新しいフレームワークである。
本研究では,AbeX-RATが新しい最先端性能を実現し,マクロF1スコアが90.32%に達することを示す。
論文 参考訳(メタデータ) (2025-09-02T08:22:59Z) - Predicting and Explaining Traffic Crash Severity Through Crash Feature Selection [1.0941365324532635]
この研究は、オハイオ州で6~2022年に起きた事故に300万人以上の人が関わったデータセットを紹介します。
主な貢献は、自動機械学習(AutoML)と説明可能な人工知能(AI)を組み合わせて、深刻なクラッシュに関連する主要なリスク要因を特定し、解釈する、透過的で再現可能な方法論である。
主な特徴は、人口統計、環境、車両、人的および運用上のカテゴリーで、位置タイプや投稿速度、居住年齢の最小化、クレーシュ前の行動などが含まれる。
論文 参考訳(メタデータ) (2025-08-15T14:31:26Z) - DATABench: Evaluating Dataset Auditing in Deep Learning from an Adversarial Perspective [59.66984417026933]
内的特徴(IF)と外的特徴(EF)(監査のための技術導入)に依存した既存手法の分類を新たに導入する。
回避攻撃(evasion attack)は、データセットの使用を隠蔽するために設計されたもので、偽造攻撃(forgery attack)は、未使用のデータセットを誤って含んでいることを意図している。
さらに,既存手法の理解と攻撃目標に基づいて,回避のための分離・除去・検出,偽造の逆例に基づく攻撃方法など,系統的な攻撃戦略を提案する。
私たちのベンチマークであるData dataBenchは、17の回避攻撃、5の偽攻撃、9の攻撃で構成されています。
論文 参考訳(メタデータ) (2025-07-08T03:07:15Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、機械翻訳、要約、会話エージェントの進歩を推進している。
近年の研究では、LSMは偏りのある反応を誘発するために設計された敵攻撃に弱いままである。
本研究は,LLMの逆バイアス誘発に対する堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - AdvKT: An Adversarial Multi-Step Training Framework for Knowledge Tracing [64.79967583649407]
知識追跡(KT)は、学生の知識状態を監視し、質問シーケンスに対する反応をシミュレートする。
既存のKTモデルは通常、単一ステップのトレーニングパラダイムに従っており、大きなエラーの蓄積につながる。
本稿では,多段階KTタスクに着目した新しい知識追跡のための多段階学習フレームワーク(AdvKT)を提案する。
論文 参考訳(メタデータ) (2025-04-07T03:31:57Z) - Fake News Detection: Comparative Evaluation of BERT-like Models and Large Language Models with Generative AI-Annotated Data [3.7409402247241643]
フェイクニュースは、現代の社会における世論と社会の安定に重大な脅威をもたらす。
本研究では,偽ニュース検出のためのBERT-like encoder-onlyモデルと自己回帰型decoder-only large language model(LLMs)の比較評価を行った。
論文 参考訳(メタデータ) (2024-12-18T19:15:17Z) - Learning Traffic Crashes as Language: Datasets, Benchmarks, and What-if Causal Analyses [76.59021017301127]
我々は,CrashEventという大規模トラフィッククラッシュ言語データセットを提案し,実世界のクラッシュレポート19,340を要約した。
さらに,クラッシュイベントの特徴学習を,新たなテキスト推論問題として定式化し,さらに様々な大規模言語モデル(LLM)を微調整して,詳細な事故結果を予測する。
実験の結果, LLMに基づくアプローチは事故の重大度を予測できるだけでなく, 事故の種類を分類し, 損害を予測できることがわかった。
論文 参考訳(メタデータ) (2024-06-16T03:10:16Z) - Memory Consistency Guided Divide-and-Conquer Learning for Generalized
Category Discovery [56.172872410834664]
一般カテゴリー発見(GCD)は、半教師付き学習のより現実的で挑戦的な設定に対処することを目的としている。
メモリ一貫性を誘導する分枝・分枝学習フレームワーク(MCDL)を提案する。
本手法は,画像認識の目に見えるクラスと見えないクラスの両方において,最先端のモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-24T09:39:45Z) - Enhancing Intrusion Detection In Internet Of Vehicles Through Federated
Learning [0.0]
フェデレートされた学習は、複数のパーティが協力し、生データを共有せずに共有モデルを学習することを可能にする。
本稿では,CIC-IDS 2017データセットを用いたIoT(Internet of Vehicles)における侵入検知のための連合学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-23T04:04:20Z) - ESimCSE Unsupervised Contrastive Learning Jointly with UDA
Semi-Supervised Learning for Large Label System Text Classification Mode [4.708633772366381]
ESimCSEモデルは、ラベルのないデータを用いてテキストベクトル表現を効率よく学習し、より良い分類結果を得る。
UDAは、モデルと安定性の予測性能を改善するために、半教師付き学習手法を通じてラベルのないデータを用いて訓練される。
FGMとPGDは、モデルの堅牢性と信頼性を向上させるために、モデルトレーニングプロセスで使用される。
論文 参考訳(メタデータ) (2023-04-19T03:44:23Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Vehicle Behavior Prediction and Generalization Using Imbalanced Learning
Techniques [1.3381749415517017]
本稿では,LSTMオートエンコーダとSVM分類器からなる対話認識予測モデルを提案する。
評価の結果,モデル性能が向上し,分類精度が向上した。
論文 参考訳(メタデータ) (2021-09-22T11:21:20Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。