論文の概要: Improving Crash Data Quality with Large Language Models: Evidence from Secondary Crash Narratives in Kentucky
- arxiv url: http://arxiv.org/abs/2508.04399v1
- Date: Wed, 06 Aug 2025 12:41:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.714601
- Title: Improving Crash Data Quality with Large Language Models: Evidence from Secondary Crash Narratives in Kentucky
- Title(参考訳): 大規模言語モデルによるクラッシュデータ品質の向上:ケンタッキー州における二次的クラッシュナラティブからの証拠
- Authors: Xu Zhang, Mei Chen,
- Abstract要約: 本研究は, クラッシュ・ナラティブをマイニングすることで, クラッシュデータ品質を向上させるために, 高度な自然言語処理(NLP)技術を評価するものである。
2015-2022年の16,656件を手作業でレビューし、3,803件の二次衝突を確認し、3つのモデルクラスを比較した。
微調整トランスは優れた性能を発揮し、RoBERTaはF1スコア(0.90)、精度は95%だった。
- 参考スコア(独自算出の注目度): 13.50189012080061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study evaluates advanced natural language processing (NLP) techniques to enhance crash data quality by mining crash narratives, using secondary crash identification in Kentucky as a case study. Drawing from 16,656 manually reviewed narratives from 2015-2022, with 3,803 confirmed secondary crashes, we compare three model classes: zero-shot open-source large language models (LLMs) (LLaMA3:70B, DeepSeek-R1:70B, Qwen3:32B, Gemma3:27B); fine-tuned transformers (BERT, DistilBERT, RoBERTa, XLNet, Longformer); and traditional logistic regression as baseline. Models were calibrated on 2015-2021 data and tested on 1,771 narratives from 2022. Fine-tuned transformers achieved superior performance, with RoBERTa yielding the highest F1-score (0.90) and accuracy (95%). Zero-shot LLaMA3:70B reached a comparable F1 of 0.86 but required 139 minutes of inference; the logistic baseline lagged well behind (F1:0.66). LLMs excelled in recall for some variants (e.g., GEMMA3:27B at 0.94) but incurred high computational costs (up to 723 minutes for DeepSeek-R1:70B), while fine-tuned models processed the test set in seconds after brief training. Further analysis indicated that mid-sized LLMs (e.g., DeepSeek-R1:32B) can rival larger counterparts in performance while reducing runtime, suggesting opportunities for optimized deployments. Results highlight trade-offs between accuracy, efficiency, and data requirements, with fine-tuned transformer models balancing precision and recall effectively on Kentucky data. Practical deployment considerations emphasize privacy-preserving local deployment, ensemble approaches for improved accuracy, and incremental processing for scalability, providing a replicable scheme for enhancing crash-data quality with advanced NLP.
- Abstract(参考訳): 本研究は, ケンタッキー州における二次的クラッシュ識別を事例として, 地雷によるクラッシュデータ品質向上のための高度自然言語処理(NLP)技術の評価を行った。
2015-2022年の16,656件のストーリーを手動でレビューし、3,803件が確認されたセカンダリクラッシュで、ゼロショットのオープンソースな大規模言語モデル(LLMs)(LLaMA3:70B、DeepSeek-R1:70B、Qwen3:32B、Gemma3:27B)、微調整されたトランスフォーマー(BERT、DistilBERT、RoBERTa、XLNet、Longformer)、従来のロジスティック回帰の3つのモデルクラスを比較した。
モデルは2015-2021年のデータに基づいて校正され、2022年からの1,771の物語でテストされた。
微調整トランスは優れた性能を発揮し、RoBERTaは最高F1スコア(0.90)と精度(95%)を得た。
ゼロショットのLLaMA3:70Bは0.86のF1に達したが、推論には139分が必要であり、ロジスティックのベースラインはかなり遅れていた(F1:0.66)。
LLMはいくつかの変種(例: GEMMA3:27B at 0.94)のリコールに優れていたが、計算コストが高い(DeepSeek-R1:70Bでは最大723分)。
さらなる分析によると、中規模のLLM(例:DeepSeek-R1:32B)は、ランタイムを減らしながらパフォーマンス上の大きなライバルと競合し、最適化されたデプロイメントの機会を示唆している。
その結果、精度、効率、データ要求の間のトレードオフが強調され、微調整されたトランスフォーマーモデルが精度のバランスをとり、ケンタッキーのデータを効率的にリコールする。
実践的なデプロイメントの考慮事項は、プライバシ保護ローカルデプロイメント、精度向上のためのアンサンブルアプローチ、スケーラビリティ向上のためのインクリメンタル処理、高度なNLPによるクラッシュデータ品質向上のためのレプリカ可能なスキームの提供である。
関連論文リスト
- Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction [95.91743732150233]
一連のオープンソースの言語モデルであるGoedel-Prover-V2は、自動定理の新たな最先端を証明した。
我々は、より複雑な定理をマスターするためにモデルを訓練することの困難さを増す合成タスクを生成する。
Goedel-Prover-V2-32Bは、標準モードのpass@32でMiniF2Fの88.1%、自己補正モードの90.4%を達成する。
論文 参考訳(メタデータ) (2025-08-05T16:28:22Z) - Approximating Language Model Training Data from Weights [70.08614275061689]
モデル重みからデータ近似の問題を定式化し、いくつかのベースラインとメトリクスを提案する。
そこで我々は,大規模公開テキストコーパスから最高のマッチングデータを選択する勾配に基づく手法を開発した。
真のトレーニングデータがない場合でも、我々の方法では、公開Webドキュメントの小さなサブセットを見つけることができる。
論文 参考訳(メタデータ) (2025-06-18T15:26:43Z) - Improving QA Efficiency with DistilBERT: Fine-Tuning and Inference on mobile Intel CPUs [0.0]
本研究は,第13世代Intel i7-1355U CPU上での展開に最適化された,効率的なトランスフォーマーベースの質問応答モデルを提案する。
このモデルは、平均推定時間1問あたり0.1208秒のバリデーションF1スコア0.6536を達成する。
論文 参考訳(メタデータ) (2025-05-28T23:38:11Z) - Enhancing Grammatical Error Detection using BERT with Cleaned Lang-8 Dataset [0.0]
本稿では,文法的誤り検出(GED)のためのLLMモデルの改良について述べる。
GEDへの従来のアプローチには手作業で設計された機能が含まれていたが、最近、ニューラルネットワーク(NN)がこれらの機能の発見を自動化した。
BERTベースの未使用モデルでは、F1スコアは0.91で、トレーニングデータの精度は98.49%であった。
論文 参考訳(メタデータ) (2024-11-23T10:57:41Z) - AutoFT: Learning an Objective for Robust Fine-Tuning [60.641186718253735]
ファンデーションモデルは、微調整によって下流タスクに適応できるリッチな表現をエンコードする。
手作り正則化技術を用いた頑健な微調整への最近のアプローチ
我々は、堅牢な微調整のためのデータ駆動型アプローチであるAutoFTを提案する。
論文 参考訳(メタデータ) (2024-01-18T18:58:49Z) - Test-Time Adaptation Induces Stronger Accuracy and Agreement-on-the-Line [65.14099135546594]
最近のテスト時間適応 (TTA) 法は, モデルに非常に弱い相関関係を示すシフトであっても, ACL と AGL の傾向を大幅に強化する。
この結果から,TTAとAGLに基づく推定手法を組み合わせることで,より広い分布シフトの集合に対する高精度なモデルOOD性能を推定できることが示唆された。
論文 参考訳(メタデータ) (2023-10-07T23:21:25Z) - Exploring the Value of Pre-trained Language Models for Clinical Named
Entity Recognition [6.917786124918387]
我々は、スクラッチからトレーニングされたTransformerモデルと、細調整されたBERTベースのLLMを比較した。
文脈学習を促進するために,追加のCRF層がそのようなモデルに与える影響を検討する。
論文 参考訳(メタデータ) (2022-10-23T16:27:31Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - AutoDistill: an End-to-End Framework to Explore and Distill
Hardware-Efficient Language Models [20.04008357406888]
ハードウェア効率の良いNLP事前学習モデルを構築するためのエンドツーエンドのモデル蒸留フレームワークであるAutoDistillを提案する。
TPUv4iの実験では、MobileBERTよりもトレーニング済みの精度(最大3.2%高い)と推論遅延(最大1.44倍速い)の低い7つのモデルアーキテクチャが見つかった。
GLUEベンチマークで下流のNLPタスクを実行することで、AutoDistillによって28.5Mパラメータで事前トレーニングするために蒸留されたモデルは81.69の平均スコアを得る。
論文 参考訳(メタデータ) (2022-01-21T04:32:19Z) - DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。
これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文 参考訳(メタデータ) (2020-06-05T19:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。