論文の概要: AccidentBlip2: Accident Detection With Multi-View MotionBlip2
- arxiv url: http://arxiv.org/abs/2404.12149v1
- Date: Thu, 18 Apr 2024 12:54:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 12:31:46.714603
- Title: AccidentBlip2: Accident Detection With Multi-View MotionBlip2
- Title(参考訳): AccidentBlip2:Multi-View MotionBlip2による事故検出
- Authors: Yihua Shao, Hongyi Cai, Wenxin Long, Weiyi Lang, Zhe Wang, Haoran Wu, Yan Wang, Yang Yang, Zhen Lei,
- Abstract要約: AccidentBlip2は、事故リスクが発生するかどうかをリアルタイムで予測できるマルチモーダルな大規模言語モデルである。
AccidentBlip2は、いかなるBEVイメージやLiDARにも依存せず、推論パラメータの数と推論コストを大幅に削減することができる。
- 参考スコア(独自算出の注目度): 20.09374579017381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have shown outstanding capabilities in many areas of multimodal reasoning. Therefore, we use the reasoning ability of Multimodal Large Language Models for environment description and scene understanding in complex transportation environments. In this paper, we propose AccidentBlip2, a multimodal large language model that can predict in real time whether an accident risk will occur. Our approach involves feature extraction based on the temporal scene of the six-view surround view graphs and temporal inference using the temporal blip framework through the vision transformer. We then input the generated temporal token into the MLLMs for inference to determine whether an accident will occur or not. Since AccidentBlip2 does not rely on any BEV images and LiDAR, the number of inference parameters and the inference cost of MLLMs can be significantly reduced, and it also does not incur a large training overhead during training. AccidentBlip2 outperforms existing solutions on the DeepAccident dataset and can also provide a reference solution for end-to-end automated driving accident prediction.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、多モーダル推論の多くの分野で際立った能力を示している。
そこで我々は,複雑な交通環境における環境記述とシーン理解のために,マルチモーダル大規模言語モデルの推論能力を利用する。
本稿では,事故リスクをリアルタイムに予測できる多モーダル大規模言語モデルであるAccidentBlip2を提案する。
提案手法は,視覚変換器による6次元サラウンドビューグラフの時間的シーンに基づく特徴抽出と,時間的ブリップフレームワークを用いた時間的推測を含む。
次に、発生した時間トークンをMLLMに入力し、事故が発生するか否かを推測する。
AccidentBlip2はいかなるBEV画像やLiDARにも依存しないため、MLLMの推論パラメータの数と推論コストは大幅に削減され、トレーニング中に大きなトレーニングオーバーヘッドを発生させることはない。
AccidentBlip2はDeepAccidentデータセットの既存のソリューションよりも優れており、エンドツーエンドの自動運転事故予測のリファレンスソリューションを提供することもできる。
関連論文リスト
- AVD2: Accident Video Diffusion for Accident Video Description [11.221276595088215]
AVD2(Accident Video Diffusion for Accident Video Description)は,事故現場の理解を高める新しいフレームワークである。
このフレームワークは、自然言語の詳細な記述や推論と一致した事故ビデオを生成する。
EMM-AUデータセットの統合は、自動メトリクスと人的評価の両方にわたって最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-02-20T18:22:44Z) - CRASH: Crash Recognition and Anticipation System Harnessing with Context-Aware and Temporal Focus Attentions [13.981748780317329]
カメラ映像から周囲の交通機関の事故を正確にかつ迅速に予測することは、自動運転車(AV)の安全性に不可欠である
本研究は, CRASH と呼ばれる, AV の新たな事故予測フレームワークを提案する。
オブジェクト検出、特徴抽出、オブジェクト認識モジュール、コンテキスト認識モジュール、多層融合の5つのコンポーネントをシームレスに統合する。
私たちのモデルは、平均精度(AP)や平均到達時間(mTTA)といった重要な評価指標において、既存のトップベースラインを超えています。
論文 参考訳(メタデータ) (2024-07-25T04:12:49Z) - When, Where, and What? A Novel Benchmark for Accident Anticipation and Localization with Large Language Models [14.090582912396467]
本研究では,複数の次元にわたる予測能力を高めるために,LLM(Large Language Models)を統合した新しいフレームワークを提案する。
複雑な運転シーンにおけるリスクの高い要素の優先順位を動的に調整する,革新的なチェーンベースアテンション機構を開発した。
DAD, CCD, A3Dデータセットの実証的検証は平均精度(AP)と平均時間到達精度(mTTA)において優れた性能を示す
論文 参考訳(メタデータ) (2024-07-23T08:29:49Z) - Edge-Assisted ML-Aided Uncertainty-Aware Vehicle Collision Avoidance at Urban Intersections [12.812518632907771]
都市横断路におけるプリエンプティブ衝突を検出する新しい枠組みを提案する。
5Gネットワークのマルチアクセスエッジコンピューティングプラットフォームを利用する。
論文 参考訳(メタデータ) (2024-04-22T18:45:40Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Learned Risk Metric Maps for Kinodynamic Systems [54.49871675894546]
本研究では,高次元力学系のコヒーレントリスクメトリクスをリアルタイムに推定するための学習型リスクメトリクスマップを提案する。
LRMMモデルは設計と訓練が簡単で、障害セットの手続き的生成、状態と制御のサンプリング、および関数近似器の教師付きトレーニングのみを必要とする。
論文 参考訳(メタデータ) (2023-02-28T17:51:43Z) - Augmenting Ego-Vehicle for Traffic Near-Miss and Accident Classification
Dataset using Manipulating Conditional Style Translation [0.3441021278275805]
事故が起こる前の事故と近距離事故には差はない。
我々の貢献は、事故の定義を再定義し、DADA-2000データセットにおける事故の不整合を再注釈することである。
提案手法は、条件付きスタイル変換(CST)と分離可能な3次元畳み込みニューラルネットワーク(S3D)の2つの異なるコンポーネントを統合する。
論文 参考訳(メタデータ) (2023-01-06T22:04:47Z) - Cognitive Accident Prediction in Driving Scenes: A Multimodality
Benchmark [77.54411007883962]
本研究では,視覚的観察と運転者の注意に対する人為的な文章記述の認識を効果的に活用し,モデルトレーニングを容易にする認知事故予測手法を提案する。
CAPは、注意テキスト〜ビジョンシフト融合モジュール、注意シーンコンテキスト転送モジュール、運転注意誘導事故予測モジュールによって構成される。
我々は,1,727件の事故ビデオと219万フレーム以上の大規模ベンチマークを構築した。
論文 参考訳(メタデータ) (2022-12-19T11:43:02Z) - Congestion-aware Multi-agent Trajectory Prediction for Collision
Avoidance [110.63037190641414]
渋滞パターンを明示的に学習し、新しい「センス--学習--Reason--予測」フレームワークを考案する。
学習段階を2段階に分解することで、「学生」は「教師」から文脈的手がかりを学習し、衝突のない軌跡を生成する。
実験では,提案モデルが合成データセットにおいて衝突のない軌道予測を生成できることを実証する。
論文 参考訳(メタデータ) (2021-03-26T02:42:33Z) - Generating and Characterizing Scenarios for Safety Testing of Autonomous
Vehicles [86.9067793493874]
最先端運転シミュレータを用いて,テストシナリオを特徴付け,生成するための効率的なメカニズムを提案する。
次世代シミュレーション(NGSIM)プロジェクトにおける実運転データの特徴付けに本手法を用いる。
事故回避の複雑さに基づいてメトリクスを定義してシナリオをランク付けし、事故発生の可能性を最小限に抑えるための洞察を提供します。
論文 参考訳(メタデータ) (2021-03-12T17:00:23Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。