論文の概要: AccidentBlip2: Accident Detection With Multi-View MotionBlip2
- arxiv url: http://arxiv.org/abs/2404.12149v4
- Date: Tue, 7 May 2024 11:21:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 18:53:50.505083
- Title: AccidentBlip2: Accident Detection With Multi-View MotionBlip2
- Title(参考訳): AccidentBlip2:Multi-View MotionBlip2による事故検出
- Authors: Yihua Shao, Hongyi Cai, Xinwei Long, Weiyi Lang, Zhe Wang, Haoran Wu, Yan Wang, Jiayi Yin, Yang Yang, Yisheng Lv, Zhen Lei,
- Abstract要約: AccidentBlip2は、事故検出のための視覚ベースの多モード大型Blip2である。
本手法は, 単車/多車両システムにおける検出精度において, 既存のビデオ大言語モデルより優れる。
- 参考スコア(独自算出の注目度): 27.693618787748548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intelligent vehicles have demonstrated excellent capabilities in many transportation scenarios. The inference capabilities of neural networks using cameras limit the accuracy of accident detection in complex transportation systems. This paper presents AccidentBlip2, a pure vision-based multi-modal large model Blip2 for accident detection. Our method first processes the multi-view images through ViT-14g and sends the multi-view features into the cross-attention layer of Q-Former. Different from Blip2's Q-Former, our Motion Q-Former extends the self-attention layer with the temporal-attention layer. In the inference process, the queries generated from previous frames are input into Motion Q-Former to aggregate temporal information. Queries are updated with an auto-regressive strategy and are sent to a MLP to detect whether there is an accident in the surrounding environment. Our AccidentBlip2 can be extended to a multi-vehicle cooperative system by deploying Motion Q-Former on each vehicle and simultaneously fusing the generated queries into the MLP for auto-regressive inference. Our approach outperforms existing video large language models in detection accuracy in both single-vehicle and multi-vehicle systems.
- Abstract(参考訳): インテリジェントな車両は多くの輸送シナリオにおいて優れた能力を示した。
カメラを用いたニューラルネットワークの推論能力は、複雑な輸送システムにおける事故検出の精度を制限する。
本稿では,AccidentBlip2を提案する。
提案手法はまず,VT-14gを介してマルチビュー画像を処理し,マルチビュー特徴をQ-Formerのクロスアテンション層に送信する。
Blip2のQ-Formerとは異なり、Motion Q-Formerは時間的アテンション層で自己アテンション層を拡張する。
推論プロセスでは、前のフレームから生成されたクエリをMotion Q-Formerに入力し、時間情報を集約する。
クエリは自動回帰戦略で更新され、MLPに送られ、周囲の環境に事故があるかどうかを検出する。
私たちのAccidentBlip2は、各車両にMotion Q-Formerを配置し、自動回帰推論のために生成されたクエリをMLPに融合することにより、複数車両の協調システムに拡張することができる。
本手法は, 単車/多車両システムにおける検出精度において, 既存のビデオ大言語モデルより優れる。
関連論文リスト
- Enhancing In-vehicle Multiple Object Tracking Systems with Embeddable Ising Machines [0.10485739694839666]
フレキシブルな割り当て機能を備えた車内複数物体追跡システムについて述べる。
このシステムは、シミュレート・バイフルケーション(simulated bifurcation)と呼ばれる量子インスパイアされたアルゴリズムに基づく埋め込み可能なIsingマシンに依存している。
車両搭載型コンピューティングプラットフォームを用いて,拡張機能を備えたリアルタイムシステムワイドスループット(平均23フレーム/秒)を実演する。
論文 参考訳(メタデータ) (2024-10-18T00:18:27Z) - Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions [8.256630421682951]
RAID-Netは、モデル予測制御(MPC)予測地平線に沿って関連する相互作用を予測する、注目に基づく新しいリカレントニューラルネットワークである。
本手法は, 移動計画問題の解法において, 12倍のスピードアップを示した。
論文 参考訳(メタデータ) (2024-02-02T03:19:54Z) - Exploring Highly Quantised Neural Networks for Intrusion Detection in
Automotive CAN [13.581341206178525]
機械学習に基づく侵入検出モデルは、標的となる攻撃ベクトルを複数検出することに成功した。
本稿では,多クラス分類モデルとしてのカスタム量子化文学(CQMLP)について述べる。
IDSとして統合された2ビットCQMLPモデルでは、悪意のある攻撃メッセージを99.9%の精度で検出できることが示されている。
論文 参考訳(メタデータ) (2024-01-19T21:11:02Z) - A Memory-Augmented Multi-Task Collaborative Framework for Unsupervised
Traffic Accident Detection in Driving Videos [22.553356096143734]
本稿では,運転ビデオにおける教師なし交通事故検出のためのメモリ拡張型マルチタスク協調フレームワーク(MAMTCF)を提案する。
映像フレームの外観変化と物体の動きを同時にモデル化することにより,エゴ関連事故と非エゴ関連事故の両方をより正確に検出することができる。
論文 参考訳(メタデータ) (2023-07-27T01:45:13Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - A Driving Behavior Recognition Model with Bi-LSTM and Multi-Scale CNN [59.57221522897815]
運転行動認識のための軌道情報に基づくニューラルネットワークモデルを提案する。
提案手法を公開BLVDデータセット上で評価し,満足な性能を実現する。
論文 参考訳(メタデータ) (2021-03-01T06:47:29Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - MVLidarNet: Real-Time Multi-Class Scene Understanding for Autonomous
Driving Using Multiple Views [60.538802124885414]
マルチビューLidarNet(MVLidarNet)は,多層物体検出とドライビング空間分割のための2段階のディープニューラルネットワークである。
MVLidarNetは、単一のLiDARスキャンを入力として、乾燥可能な空間を同時に決定しながら、オブジェクトを検出し、分類することができる。
我々は、KITTIとはるかに大きな内部データセットの両方で結果を示し、その方法が桁違いにスケールできることを実証する。
論文 参考訳(メタデータ) (2020-06-09T21:28:17Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - Traffic Signs Detection and Recognition System using Deep Learning [0.0]
本稿では,交通標識をリアルタイムに検出・認識するためのアプローチについて述べる。
マルチオブジェクト検出システムの最先端技術を用いて,交通信号検出問題に取り組む。
この論文の焦点は、F-RCNN Inception v2とTiny YOLO v2が最高の結果を得たときのものである。
論文 参考訳(メタデータ) (2020-03-06T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。