論文の概要: When language and vision meet road safety: leveraging multimodal large language models for video-based traffic accident analysis
- arxiv url: http://arxiv.org/abs/2501.10604v1
- Date: Fri, 17 Jan 2025 23:35:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:26:41.172137
- Title: When language and vision meet road safety: leveraging multimodal large language models for video-based traffic accident analysis
- Title(参考訳): 言語と視覚が道路安全に合致する時-多モーダル大言語モデルを用いたビデオベース交通事故解析
- Authors: Ruixuan Zhang, Beichen Wang, Juexiao Zhang, Zilin Bian, Chen Feng, Kaan Ozbay,
- Abstract要約: SeeUnsafeは、ビデオベースの交通事故分析を、よりインタラクティブで対話的なアプローチに変換するフレームワークである。
本フレームワークでは,様々な長さの動画をマルチモーダル・アグリゲーション・ストラテジーで処理し,レビューと評価のために構造化された応答を生成する。
本研究では,トヨタウーブン交通安全データセットについて広範な実験を行い,SeeUnsafeが事故対応ビデオ分類と視覚的グラウンド化を効果的に実施できることを実証した。
- 参考スコア(独自算出の注目度): 6.213279061986497
- License:
- Abstract: The increasing availability of traffic videos functioning on a 24/7/365 time scale has the great potential of increasing the spatio-temporal coverage of traffic accidents, which will help improve traffic safety. However, analyzing footage from hundreds, if not thousands, of traffic cameras in a 24/7/365 working protocol remains an extremely challenging task, as current vision-based approaches primarily focus on extracting raw information, such as vehicle trajectories or individual object detection, but require laborious post-processing to derive actionable insights. We propose SeeUnsafe, a new framework that integrates Multimodal Large Language Model (MLLM) agents to transform video-based traffic accident analysis from a traditional extraction-then-explanation workflow to a more interactive, conversational approach. This shift significantly enhances processing throughput by automating complex tasks like video classification and visual grounding, while improving adaptability by enabling seamless adjustments to diverse traffic scenarios and user-defined queries. Our framework employs a severity-based aggregation strategy to handle videos of various lengths and a novel multimodal prompt to generate structured responses for review and evaluation and enable fine-grained visual grounding. We introduce IMS (Information Matching Score), a new MLLM-based metric for aligning structured responses with ground truth. We conduct extensive experiments on the Toyota Woven Traffic Safety dataset, demonstrating that SeeUnsafe effectively performs accident-aware video classification and visual grounding by leveraging off-the-shelf MLLMs. Source code will be available at \url{https://github.com/ai4ce/SeeUnsafe}.
- Abstract(参考訳): 24/7/365のタイムスケールで機能するトラヒックビデオの増加は、交通事故の時空間カバレッジを増大させる大きな可能性を秘めている。
しかし、現在の視覚に基づくアプローチは、車軌道や個々の物体検出などの生情報を抽出することに重点を置いているが、実用的な洞察を導き出すためには、精巧な後処理が必要であるため、24/7/365の作業プロトコルで数百台の交通カメラの映像を解析することは極めて難しい課題である。
本研究では,Multimodal Large Language Model (MLLM)エージェントを統合した新しいフレームワークであるSeeUnsafeを提案する。
このシフトは、ビデオ分類や視覚的グラウンド化といった複雑なタスクを自動化することで処理のスループットを大幅に向上するとともに、多様なトラフィックシナリオやユーザ定義クエリに対するシームレスな調整を可能にすることで、適応性を向上させる。
本フレームワークでは,様々な長さのビデオを扱うための厳密な集約戦略と,新たなマルチモーダルプロンプトを用いて,レビューと評価のための構造化応答を生成し,きめ細かな視覚的接地を可能にする。
IMS(Information Matching Score, 情報マッチングスコア)は, 構造化された応答を基底真実と整合させるMLLMに基づく新しい指標である。
筆者らはToyota Woven Traffic Safetyデータセットの広範な実験を行い、SeeUnsafeが市販のMLLMを活用して、事故対応ビデオ分類と視覚的グラウンドを効果的に実施できることを実証した。
ソースコードは \url{https://github.com/ai4ce/SeeUnsafe} で入手できる。
関連論文リスト
- Cross-domain Few-shot In-context Learning for Enhancing Traffic Sign Recognition [49.20086587208214]
交通信号認識の強化を目的としたMLLMに基づくドメイン間数ショットインコンテキスト学習手法を提案する。
記述テキストを使用することで、テンプレートと実際の交通標識のドメイン間差を低減することができる。
提案手法は,大規模交通標識画像やラベルを必要とせず,単純かつ均一なテキスト表示のみを必要とする。
論文 参考訳(メタデータ) (2024-07-08T10:51:03Z) - Using Multimodal Large Language Models for Automated Detection of Traffic Safety Critical Events [5.233512464561313]
MLLM(Multimodal Large Language Models)は、テキスト、ビジュアル、オーディオのモダリティを統合する新しいアプローチを提供する。
我々のフレームワークはMLLMの推論能力を活用し、文脈固有のプロンプトを通して出力を誘導する。
予備的な結果は、ゼロショット学習と正確なシナリオ分析におけるフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2024-06-19T23:50:41Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - TrafficMOT: A Challenging Dataset for Multi-Object Tracking in Complex
Traffic Scenarios [23.831048188389026]
トラヒックビデオにおける多目的追跡は、交通監視の精度を高め、道路安全対策を促進する大きな可能性を秘めている。
トラヒックビデオにおけるマルチオブジェクトトラッキングのための既存のデータセットは、制限されたインスタンスや単一のクラスにフォーカスすることが多い。
複雑なシナリオを持つ多様なトラフィック状況をカバーするために設計された、広範なデータセットであるTrafficMOTを紹介する。
論文 参考訳(メタデータ) (2023-11-30T18:59:56Z) - A Memory-Augmented Multi-Task Collaborative Framework for Unsupervised
Traffic Accident Detection in Driving Videos [22.553356096143734]
本稿では,運転ビデオにおける教師なし交通事故検出のためのメモリ拡張型マルチタスク協調フレームワーク(MAMTCF)を提案する。
映像フレームの外観変化と物体の動きを同時にモデル化することにより,エゴ関連事故と非エゴ関連事故の両方をより正確に検出することができる。
論文 参考訳(メタデータ) (2023-07-27T01:45:13Z) - Traffic-Domain Video Question Answering with Automatic Captioning [69.98381847388553]
Video Question Answering (VidQA) は、高度な機械推論機能を促進する重要な可能性を示している。
本稿では,交通領域の知識を大規模ビデオ言語モデルに注入する弱スーパービジョン手法として,交通領域ビデオ質問回答と自動キャプション(TRIVIA)を提案する。
論文 参考訳(メタデータ) (2023-07-18T20:56:41Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Traffic Scene Parsing through the TSP6K Dataset [109.69836680564616]
高品質なピクセルレベルのアノテーションとインスタンスレベルのアノテーションを備えた,TSP6Kと呼ばれる特殊なトラフィック監視データセットを導入する。
データセットは、既存の運転シーンの何倍ものトラフィック参加者を持つ、より混雑した交通シーンをキャプチャする。
交通シーンの異なるセマンティック領域の詳細を復元するシーン解析のためのディテールリフィニングデコーダを提案する。
論文 参考訳(メタデータ) (2023-03-06T02:05:14Z) - A novel efficient Multi-view traffic-related object detection framework [17.50049841016045]
我々は,多視点ビデオデータを用いた効率的な物体検出を実現するために,CEVASという新しいトラフィック関連フレームワークを提案する。
その結果,本フレームワークは,最先端手法と同じ検出精度を達成しつつ,応答遅延を著しく低減することがわかった。
論文 参考訳(メタデータ) (2023-02-23T06:42:37Z) - Deep Learning Serves Traffic Safety Analysis: A Forward-looking Review [4.228522109021283]
本稿では,トラヒックビデオの理解と解釈に使用できる,典型的な処理パイプラインを提案する。
この処理フレームワークは、ビデオ強調、ビデオ安定化、セマンティックおよびインシデントセグメンテーション、オブジェクト検出と分類、軌道抽出、速度推定、イベント分析、モデリング、異常検出を含む。
論文 参考訳(メタデータ) (2022-03-07T17:21:07Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。