論文の概要: Investigating Traffic Accident Detection Using Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2509.19096v2
- Date: Wed, 24 Sep 2025 08:42:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 14:09:11.258306
- Title: Investigating Traffic Accident Detection Using Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルを用いた交通事故検出の検討
- Authors: Ilhan Skender, Kailin Tong, Selim Solmaz, Daniel Watzenig,
- Abstract要約: 本研究では,交通事故の検出と記述を行うマルチモーダル大規模言語モデル(MLLM)のゼロショット機能について検討する。
その結果、PixtralはF1スコア71%、リコール83%のトップパフォーマーとなった。
これらの結果は、MLLMと高度な視覚分析技術の統合の可能性を示している。
- 参考スコア(独自算出の注目度): 3.4123736336071864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traffic safety remains a critical global concern, with timely and accurate accident detection essential for hazard reduction and rapid emergency response. Infrastructure-based vision sensors offer scalable and efficient solutions for continuous real-time monitoring, facilitating automated detection of accidents directly from captured images. This research investigates the zero-shot capabilities of multimodal large language models (MLLMs) for detecting and describing traffic accidents using images from infrastructure cameras, thus minimizing reliance on extensive labeled datasets. Main contributions include: (1) Evaluation of MLLMs using the simulated DeepAccident dataset from CARLA, explicitly addressing the scarcity of diverse, realistic, infrastructure-based accident data through controlled simulations; (2) Comparative performance analysis between Gemini 1.5 and 2.0, Gemma 3 and Pixtral models in accident identification and descriptive capabilities without prior fine-tuning; and (3) Integration of advanced visual analytics, specifically YOLO for object detection, Deep SORT for multi-object tracking, and Segment Anything (SAM) for instance segmentation, into enhanced prompts to improve model accuracy and explainability. Key numerical results show Pixtral as the top performer with an F1-score of 71% and 83% recall, while Gemini models gained precision with enhanced prompts (e.g., Gemini 1.5 rose to 90%) but suffered notable F1 and recall losses. Gemma 3 offered the most balanced performance with minimal metric fluctuation. These findings demonstrate the substantial potential of integrating MLLMs with advanced visual analytics techniques, enhancing their applicability in real-world automated traffic monitoring systems.
- Abstract(参考訳): 交通安全は依然として重要な世界的関心事であり、危険の低減と急激な緊急対応に欠かせないタイムリーかつ正確な事故検出が不可欠である。
インフラストラクチャベースの視覚センサは、継続的なリアルタイム監視のためのスケーラブルで効率的なソリューションを提供する。
本研究では,インフラカメラの画像から交通事故を検出し,記述するためのMLLM(Multimodal Large Language Model)のゼロショット機能について検討し,広範囲なラベル付きデータセットへの依存を最小限に抑えることを目的とした。
主な貢献は,(1) CARLAのDeepAccidentデータセットを用いたMLLMの評価,(2)制御シミュレーションによる多種多様な,現実的な,インフラストラクチャベースの事故データの不足への対処,(2) 事故識別および事前微調整のない記述能力におけるGemini 1.5,2.0,Gemma 3,Pixtralモデルの比較解析,(3) 高度な視覚分析,特にオブジェクト検出のためのYOLO,マルチオブジェクト追跡のためのDeep SORT,そして例分割のためのSegment Anything(SAM)の統合,などである。
ピクサールはF1スコア71%、リコール83%でトップパフォーマーであり、ジェミニのモデルではプロンプトが強化された(例えばゲミニ1.5は90%まで上昇)が、F1とリコールの損失は顕著だった。
Gemma 3は、最もバランスのとれたパフォーマンスで、測定基準の変動を最小限に抑えた。
これらの結果は、MLLMと高度な視覚分析技術を統合する可能性を示し、実際の自動交通監視システムへの適用性を高めた。
関連論文リスト
- YOLO11-CR: a Lightweight Convolution-and-Attention Framework for Accurate Fatigue Driving Detection [0.0]
本稿では,リアルタイム疲労モニタリングに適した軽量で効率的な物体検出モデルYOLO11-CRを提案する。
YOLO11-CR は Convolution-and-Attention Fusion Module (CAFM) と Rectangular Module (RCM) の2つの重要なモジュールを導入した。
DSMデータセットの実験では、YOLO11-CRは87.17%の精度、83.86%のリコール、88.09%のmAP@50、55.93%のmAP@50-95を達成した。
論文 参考訳(メタデータ) (2025-08-16T07:19:04Z) - Contrastive Learning-Driven Traffic Sign Perception: Multi-Modal Fusion of Text and Vision [2.0720154517628417]
オープン語彙検出とクロスモーダル学習を組み合わせた新しいフレームワークを提案する。
交通信号検出のために,NanoVerse YOLOモデルは視覚言語パス集約ネットワーク(RepVL-PAN)とSPD-Convモジュールを統合している。
交通標識分類のための交通信号認識マルチモーダルコントラスト学習モデル(TSR-MCL)を設計した。
TT100Kデータセットでは,全クラス認識のためのロングテール検出タスクにおいて,最先端の78.4%mAPを実現する。
論文 参考訳(メタデータ) (2025-07-31T08:23:30Z) - LSM-2: Learning from Incomplete Wearable Sensor Data [65.58595667477505]
本稿では,Adaptive and Inherited Masking (AIM)を用いた第2世代Large Sensor Model (LSM-2)を紹介する。
AIMは明示的な計算を必要とせず、不完全なデータから直接堅牢な表現を学習する。
AIMを用いた LSM-2 は, 分類, 回帰, 生成モデルなど, 多様なタスクにまたがる最高の性能を実現する。
論文 参考訳(メタデータ) (2025-06-05T17:57:11Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Floating Car Observers in Intelligent Transportation Systems: Detection Modeling and Temporal Insights [1.7205106391379021]
フローティングカーオブザーバ(FCO)は、オンボードセンサーを統合して、他の交通参加者を検出し、ローカライズすることで、従来のフローティングカーデータ(FCD)を拡張している。
我々は, 微視的交通シミュレーションにおけるFCO検出のための様々なモデリング手法について検討し, インテリジェントトランスポーテーションシステム(ITS)の応用の可能性を評価する。
論文 参考訳(メタデータ) (2025-04-29T19:38:13Z) - Fast-COS: A Fast One-Stage Object Detector Based on Reparameterized Attention Vision Transformer for Autonomous Driving [3.617580194719686]
本稿では、シーンを駆動するための新しい単一ステージオブジェクト検出フレームワークであるFast-COSを紹介する。
RAViTはImageNet-1Kデータセットで81.4%のTop-1精度を達成した。
主要なモデルの効率を上回り、最大75.9%のGPU推論速度とエッジデバイスでの1.38のスループットを提供する。
論文 参考訳(メタデータ) (2025-02-11T09:54:09Z) - From Objects to Events: Unlocking Complex Visual Understanding in Object Detectors via LLM-guided Symbolic Reasoning [71.41062111470414]
現在のオブジェクト検出器は、エンティティのローカライゼーションと分類において優れているが、イベント認識機能には固有の制限がある。
本稿では,単なるオブジェクト認識以上の標準オブジェクト検出能力を,複雑なイベント理解に拡張する新しいフレームワークを提案する。
私たちの重要なイノベーションは、高価なタスク固有のトレーニングを必要とせずに、オブジェクト検出とイベント理解のセマンティックなギャップを埋めることです。
論文 参考訳(メタデータ) (2025-02-09T10:30:54Z) - Uncertainty Estimation for 3D Object Detection via Evidential Learning [63.61283174146648]
本稿では,3次元検出器における鳥の視線表示における明らかな学習損失を利用して,3次元物体検出の不確かさを定量化するためのフレームワークを提案する。
本研究では,これらの不確実性評価の有効性と重要性を,分布外シーンの特定,局所化の不十分な物体の発見,および(偽陰性)検出の欠如について示す。
論文 参考訳(メタデータ) (2024-10-31T13:13:32Z) - Using Multimodal Large Language Models for Automated Detection of Traffic Safety Critical Events [5.233512464561313]
MLLM(Multimodal Large Language Models)は、テキスト、ビジュアル、オーディオのモダリティを統合する新しいアプローチを提供する。
我々のフレームワークはMLLMの推論能力を活用し、文脈固有のプロンプトを通して出力を誘導する。
予備的な結果は、ゼロショット学習と正確なシナリオ分析におけるフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2024-06-19T23:50:41Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。