論文の概要: CrashChat: A Multimodal Large Language Model for Multitask Traffic Crash Video Analysis
- arxiv url: http://arxiv.org/abs/2512.18878v1
- Date: Sun, 21 Dec 2025 20:39:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.538811
- Title: CrashChat: A Multimodal Large Language Model for Multitask Traffic Crash Video Analysis
- Title(参考訳): CrashChat: マルチタスクトラフィッククラッシュビデオ分析のためのマルチモーダル大言語モデル
- Authors: Kaidi Liang, Ke Li, Xianbiao Hu, Ruwen Qin,
- Abstract要約: 本稿では,マルチタスクトラフィック解析のためのマルチモーダル大規模言語モデル(MLLM)であるCrashChatを提案する。
CrashChatは、命令の微調整を通じてドメイン固有の知識を取得し、新しいマルチタスク学習戦略を採用している。
統合された公開データセットに関する数値実験は、CrashChatが既存のMLLMを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 8.067631013051855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automating crash video analysis is essential to leverage the growing availability of driving video data for traffic safety research and accountability attribution in autonomous driving. Crash video analysis is a challenging multitask problem due to the complex spatiotemporal dynamics of crash events in video data and the diverse analytical requirements involved. It requires capabilities spanning crash recognition, temporal grounding, and high-level video understanding. Existing models, however, cannot perform all these tasks within a unified framework, and effective training strategies for such models remain underexplored. To fill these gaps, this paper proposes CrashChat, a multimodal large language model (MLLM) for multitask traffic crash analysis, built upon VideoLLaMA3. CrashChat acquires domain-specific knowledge through instruction fine-tuning and employs a novel multitask learning strategy based on task decoupling and grouping, which maximizes the benefit of joint learning within and across task groups while mitigating negative transfer. Numerical experiments on consolidated public datasets demonstrate that CrashChat consistently outperforms existing MLLMs across model scales and traditional vision-based methods, achieving state-of-the-art performance. It reaches near-perfect accuracy in crash recognition, a 176\% improvement in crash localization, and a 40\% improvement in the more challenging pre-crash localization. Compared to general MLLMs, it substantially enhances textual accuracy and content coverage in crash description and reasoning tasks, with 0.18-0.41 increases in BLEU scores and 0.18-0.42 increases in ROUGE scores. Beyond its strong performance, CrashChat is a convenient, end-to-end analytical tool ready for practical implementation. The dataset and implementation code for CrashChat are available at https://github.com/Liangkd/CrashChat.
- Abstract(参考訳): 事故映像分析の自動化は、交通安全研究や自律運転における説明責任の帰属のために、運転映像データの増大を活用するために不可欠である。
クラッシュビデオ解析は、ビデオデータにおけるクラッシュイベントの複雑な時空間的ダイナミクスと多様な解析的要件により、課題となるマルチタスク問題である。
クラッシュ認識、時間的接地、ハイレベルなビデオ理解にまたがる機能が必要です。
しかし、既存のモデルでは、統一されたフレームワーク内でこれらのすべてのタスクを実行することができず、そのようなモデルの効果的なトレーニング戦略は未検討のままである。
これらのギャップを埋めるために,ビデオLLaMA3上に構築されたマルチタスクトラフィッククラッシュ解析のためのマルチモーダル大規模言語モデル(MLLM)であるCrashChatを提案する。
CrashChatは、命令の微調整を通じてドメイン固有の知識を取得し、タスク分離とグループ化に基づく新しいマルチタスク学習戦略を採用し、負の伝達を緩和しながらタスクグループ内およびタスクグループ間の共同学習の利点を最大化する。
統合された公開データセットに関する数値実験により、CrashChatはモデルスケールと従来のビジョンベースの手法で既存のMLLMを一貫して上回り、最先端のパフォーマンスを達成することを示した。
クラッシュ認識におけるほぼ完全な精度、クラッシュローカライゼーションにおける176\%の改善、より困難なプリクラッシュローカライゼーションにおける40\%の改善を実現している。
一般的なMLLMと比較して、クラッシュ記述や推論タスクにおけるテキストの精度と内容のカバレッジを大幅に向上させ、BLEUスコアは0.18-0.41、ROUGEスコアは0.18-0.42向上した。
強力なパフォーマンスに加えて、CrashChatは実用的な実装が可能な便利なエンドツーエンドの分析ツールである。
CrashChatのデータセットと実装コードはhttps://github.com/Liangkd/CrashChat.comで公開されている。
関連論文リスト
- Domain-Adapted Pre-trained Language Models for Implicit Information Extraction in Crash Narratives [6.91741018994547]
本研究では,コンパクトなオープンソース言語モデルが,クラッシュ物語からの推論集約的な抽出を支援するかどうかを考察する。
我々は,Low-Rank Adaption (LoRA) とBERTを用いて,タスク固有の知識をLLMに注入するための微調整手法を適用した。
さらなる分析により、微調整されたPLMはよりリッチな物語の詳細をキャプチャし、データセット内のいくつかの誤ラベル付きアノテーションを修正できることが明らかになった。
論文 参考訳(メタデータ) (2025-10-10T14:45:07Z) - Aligning Effective Tokens with Video Anomaly in Large Language Models [42.99603812716817]
本稿では,様々なビデオにおける異常事象の要約と局所化を目的とした新しいMLLMであるVA-GPTを提案する。
提案手法は,視覚エンコーダとLCM間の有効トークンを2つの重要なモジュールを通して効率的に整列する。
本研究では,ビデオアノマ対応MLLMの微調整のための命令追従データセットを構築した。
論文 参考訳(メタデータ) (2025-08-08T14:30:05Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - From Accidents to Insights: Leveraging Multimodal Data for Scenario-Driven ADS Testing [3.984220091774453]
本稿では,シナリオベースADSテストケース生成フレームワークであるTRACEを紹介する。
マルチモーダルデータを活用して、現実世界の事故報告から困難なシナリオを抽出することで、TRACEは少ないデータで多数の重要なテストケースを構築します。
ユーザからのフィードバックによると、TRACEはシナリオ再構築の精度が優れており、シナリオの77.5%が"ほぼ"あるいは"完全に"一貫性がある"と評価されている。
論文 参考訳(メタデータ) (2025-02-04T05:21:29Z) - When language and vision meet road safety: leveraging multimodal large language models for video-based traffic accident analysis [6.213279061986497]
SeeUnsafeは、ビデオベースの交通事故分析を、よりインタラクティブで対話的なアプローチに変換するフレームワークである。
本フレームワークでは,様々な長さの動画をマルチモーダル・アグリゲーション・ストラテジーで処理し,レビューと評価のために構造化された応答を生成する。
本研究では,トヨタウーブン交通安全データセットについて広範な実験を行い,SeeUnsafeが事故対応ビデオ分類と視覚的グラウンド化を効果的に実施できることを実証した。
論文 参考訳(メタデータ) (2025-01-17T23:35:34Z) - Using Multimodal Large Language Models for Automated Detection of Traffic Safety Critical Events [5.233512464561313]
MLLM(Multimodal Large Language Models)は、テキスト、ビジュアル、オーディオのモダリティを統合する新しいアプローチを提供する。
我々のフレームワークはMLLMの推論能力を活用し、文脈固有のプロンプトを通して出力を誘導する。
予備的な結果は、ゼロショット学習と正確なシナリオ分析におけるフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2024-06-19T23:50:41Z) - Learning Traffic Crashes as Language: Datasets, Benchmarks, and What-if Causal Analyses [76.59021017301127]
我々は,CrashEventという大規模トラフィッククラッシュ言語データセットを提案し,実世界のクラッシュレポート19,340を要約した。
さらに,クラッシュイベントの特徴学習を,新たなテキスト推論問題として定式化し,さらに様々な大規模言語モデル(LLM)を微調整して,詳細な事故結果を予測する。
実験の結果, LLMに基づくアプローチは事故の重大度を予測できるだけでなく, 事故の種類を分類し, 損害を予測できることがわかった。
論文 参考訳(メタデータ) (2024-06-16T03:10:16Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - vCLIMB: A Novel Video Class Incremental Learning Benchmark [53.90485760679411]
本稿では,ビデオ連続学習ベンチマークvCLIMBを紹介する。
vCLIMBは、ビデオ連続学習における深層モデルの破滅的な忘れを解析するための標準化されたテストベッドである。
本稿では,メモリベース連続学習法に適用可能な時間的整合性正規化を提案する。
論文 参考訳(メタデータ) (2022-01-23T22:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。