論文の概要: Domain-Adapted Pre-trained Language Models for Implicit Information Extraction in Crash Narratives
- arxiv url: http://arxiv.org/abs/2510.09434v1
- Date: Fri, 10 Oct 2025 14:45:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.2923
- Title: Domain-Adapted Pre-trained Language Models for Implicit Information Extraction in Crash Narratives
- Title(参考訳): クラッシュナラティブにおける暗黙の情報抽出のためのドメイン適応型事前学習言語モデル
- Authors: Xixi Wang, Jordanka Kovaceva, Miguel Costa, Shuai Wang, Francisco Camara Pereira, Robert Thomson,
- Abstract要約: 本研究では,コンパクトなオープンソース言語モデルが,クラッシュ物語からの推論集約的な抽出を支援するかどうかを考察する。
我々は,Low-Rank Adaption (LoRA) とBERTを用いて,タスク固有の知識をLLMに注入するための微調整手法を適用した。
さらなる分析により、微調整されたPLMはよりリッチな物語の詳細をキャプチャし、データセット内のいくつかの誤ラベル付きアノテーションを修正できることが明らかになった。
- 参考スコア(独自算出の注目度): 6.91741018994547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Free-text crash narratives recorded in real-world crash databases have been shown to play a significant role in improving traffic safety. However, large-scale analyses remain difficult to implement as there are no documented tools that can batch process the unstructured, non standardized text content written by various authors with diverse experience and attention to detail. In recent years, Transformer-based pre-trained language models (PLMs), such as Bidirectional Encoder Representations from Transformers (BERT) and large language models (LLMs), have demonstrated strong capabilities across various natural language processing tasks. These models can extract explicit facts from crash narratives, but their performance declines on inference-heavy tasks in, for example, Crash Type identification, which can involve nearly 100 categories. Moreover, relying on closed LLMs through external APIs raises privacy concerns for sensitive crash data. Additionally, these black-box tools often underperform due to limited domain knowledge. Motivated by these challenges, we study whether compact open-source PLMs can support reasoning-intensive extraction from crash narratives. We target two challenging objectives: 1) identifying the Manner of Collision for a crash, and 2) Crash Type for each vehicle involved in the crash event from real-world crash narratives. To bridge domain gaps, we apply fine-tuning techniques to inject task-specific knowledge to LLMs with Low-Rank Adaption (LoRA) and BERT. Experiments on the authoritative real-world dataset Crash Investigation Sampling System (CISS) demonstrate that our fine-tuned compact models outperform strong closed LLMs, such as GPT-4o, while requiring only minimal training resources. Further analysis reveals that the fine-tuned PLMs can capture richer narrative details and even correct some mislabeled annotations in the dataset.
- Abstract(参考訳): 現実のクラッシュデータベースに記録されているフリーテキストのクラッシュ物語は、交通安全を改善する上で重要な役割を果たすことが示されている。
しかし、多種多様な経験と細部への注意を持つ多種多様な著者によって書かれた、構造化されていない、標準化されていないテキストコンテンツをバッチ処理できる文書化ツールが存在しないため、大規模な解析は実装が難しいままである。
近年,変換器による双方向エンコーダ表現 (BERT) や大規模言語モデル (LLM) のようなトランスフォーマーベースの事前学習言語モデル (PLM) は,様々な自然言語処理タスクにおいて強力な能力を示している。
これらのモデルは、クラッシュの物語から明らかな事実を抽出することができるが、そのパフォーマンスは、例えば、100近いカテゴリを含むクラッシュタイプの識別など、推論に重きを置くタスクに低下する。
さらに、外部APIを通じて閉じたLLMに依存すると、機密性の高いクラッシュデータに対するプライバシー上の懸念が高まる。
さらに、これらのブラックボックスツールはドメインの知識が限られているため、パフォーマンスが劣ることが多い。
これらの課題に乗じて,コンパクトなオープンソースPLMが,事故物語からの推論集約的な抽出を支援することができるかどうかを考察する。
私たちは2つの挑戦的な目標を目標にしています。
1)衝突事故の責任の特定,及び
2)クラッシュタイプは、現実のクラッシュ物語からのクラッシュイベントに関与する各車両についてである。
ドメインギャップを埋めるために,Low-Rank Adaption (LoRA) とBERTを併用したLLMにタスク固有知識を注入するための微調整手法を適用した。
信頼性のある実世界のデータセット Crash Investigation Smpling System (CISS) の実験では、我々の微調整されたコンパクトモデルは、GPT-4oのような強力な閉LLMよりも優れており、最小限のトレーニングリソースしか必要としていない。
さらなる分析により、微調整されたPLMはよりリッチな物語の詳細をキャプチャし、データセット内のいくつかの誤ラベルのアノテーションを修正できることが明らかになった。
関連論文リスト
- Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。
LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文 参考訳(メタデータ) (2025-06-06T13:02:59Z) - Towards Reliable and Interpretable Traffic Crash Pattern Prediction and Safety Interventions Using Customized Large Language Models [14.53510262691888]
TrafficSafeは、テキストレベルの推論として、再フレームのクラッシュ予測と機能属性に適応するフレームワークである。
飲酒運転が深刻な事故の要因となっている。
TrafficSafeは、戦略的クラッシュデータ収集の改善を導くモデルトレーニングにおいて、重要な機能を強調している。
論文 参考訳(メタデータ) (2025-05-18T21:02:30Z) - CrashSage: A Large Language Model-Centered Framework for Contextual and Interpretable Traffic Crash Analysis [0.46040036610482665]
道路事故は毎年130万人が死亡し、世界経済の損失は18兆ドルを超えたと主張している。
CrashSageは, 4つの重要なイノベーションを通じて, クラッシュ解析とモデリングを促進するために設計された, LLM(Large Language Model)中心のフレームワークである。
論文 参考訳(メタデータ) (2025-05-08T00:23:18Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - Evaluating Robustness of LLMs on Crisis-Related Microblogs across Events, Information Types, and Linguistic Features [15.844270609527848]
Xのようなマイクロブログプラットフォームは、災害時に政府にリアルタイム情報を提供する。
従来、教師付き機械学習モデルが用いられてきたが、一般化性に欠けていた。
本稿では,災害関連ソーシャルメディアデータ処理における6つの有名なLarge Language Model(LLM)の性能を詳細に分析する。
論文 参考訳(メタデータ) (2024-12-08T10:30:29Z) - Learning Traffic Crashes as Language: Datasets, Benchmarks, and What-if Causal Analyses [76.59021017301127]
我々は,CrashEventという大規模トラフィッククラッシュ言語データセットを提案し,実世界のクラッシュレポート19,340を要約した。
さらに,クラッシュイベントの特徴学習を,新たなテキスト推論問題として定式化し,さらに様々な大規模言語モデル(LLM)を微調整して,詳細な事故結果を予測する。
実験の結果, LLMに基づくアプローチは事故の重大度を予測できるだけでなく, 事故の種類を分類し, 損害を予測できることがわかった。
論文 参考訳(メタデータ) (2024-06-16T03:10:16Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。