Fugu-MT 論文翻訳(概要): AccidentBlip2: Accident Detection With Multi-View MotionBlip2

論文の概要: AccidentBlip2: Accident Detection With Multi-View MotionBlip2

arxiv url: http://arxiv.org/abs/2404.12149v3
Date: Mon, 22 Apr 2024 17:07:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 12:38:52.555745
Title: AccidentBlip2: Accident Detection With Multi-View MotionBlip2
Title（参考訳）: AccidentBlip2:Multi-View MotionBlip2による事故検出
Authors: Yihua Shao, Hongyi Cai, Xinwei Long, Weiyi Lang, Zhe Wang, Haoran Wu, Yan Wang, Jiayi Yin, Yang Yang, Zhen Lei,
Abstract要約: AccidentBlip2は、視覚に基づく大型Blip2事故検知システムである。提案手法は, マルチビューをViT-14gで処理し, マルチビュー特徴をQformerのクロスアテンション層に入力する。また、各車両にMotion Qformerを配置することで、複数車両協調システムへのアプローチを拡大する。
参考スコア（独自算出の注目度）: 20.97279963173258
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Intelligent vehicles have demonstrated excellent capabilities in many transportation scenarios, but the complex on-board sensors and the inference capabilities of on-board neural networks limit the accuracy of intelligent vehicles for accident detection in complex transportation systems. In this paper, we present AccidentBlip2, a pure vision-based multimodal large model Blip2 accident detection method. Our method first processes the multi-view through ViT-14g and inputs the multi-view features into the cross attention layer of the Qformer, while our self-designed Motion Qformer replaces the self-attention layer in Blip2's Qformer with the Temporal Attention layer in the In the inference process, the query generated in the previous frame is input into the Temporal Attention layer to realize the inference for temporal information. Then we detect whether there is an accident in the surrounding environment by performing autoregressive inference on the query input to the MLP. We also extend our approach to a multi-vehicle cooperative system by deploying Motion Qformer on each vehicle and simultaneously inputting the inference-generated query into the MLP for autoregressive inference. Our approach detects the accuracy of existing video large language models and also adapts to multi-vehicle systems, making it more applicable to intelligent transportation scenarios.
Abstract（参考訳）: インテリジェントな車両は多くの輸送シナリオにおいて優れた能力を示してきたが、複雑なオンボードセンサーとオンボードニューラルネットワークの推論能力は、複雑な輸送システムにおける事故検出のためのインテリジェントな車両の精度を制限している。本稿では,純粋視覚に基づく多モード大規模Blip2事故検出手法であるAccidentBlip2を提案する。提案手法はまず,マルチビューをViT-14gで処理し,マルチビュー機能をQformerのクロスアテンション層に入力する。一方,自動設計のMotion Qformerでは,Blip2のQformerの自己アテンション層をIn推論プロセスのテンポラルアテンション層に置き換え,前フレームで生成されたクエリをテンポラルアテンション層に入力し,時間情報の推論を実現する。そして,MLPに入力されたクエリに対して自己回帰推論を行うことにより,周辺環境に事故があるかどうかを検出する。我々はまた、各車両にMotion Qformerを配置し、自動回帰推論のためにMLPに推論生成クエリを同時に入力することで、マルチ車両協調システムへのアプローチを拡張した。提案手法は,既存のビデオ大言語モデルの精度を検知し,マルチ車両システムにも適応し,インテリジェントな輸送シナリオに適用可能である。

関連論文リスト

Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving [55.96227460521096]
視覚言語モデル(VLM)は推論能力を高めるために自律運転システムに統合されている。本稿では,自律運転シナリオにおけるVLMシステムを対象とした自然反射型バックドアアタックを提案する。我々の発見は、自動運転の厳しいリアルタイム要求を生かした、新たなタイプの攻撃を発見しました。
論文参考訳（メタデータ） (2025-05-09T20:28:17Z)
DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-03-07T11:41:18Z)
AVD2: Accident Video Diffusion for Accident Video Description [11.221276595088215]
AVD2(Accident Video Diffusion for Accident Video Description)は,事故現場の理解を高める新しいフレームワークである。このフレームワークは、自然言語の詳細な記述や推論と一致した事故ビデオを生成し、その結果、EMM-AUデータセットが生成される。 EMM-AUデータセットの統合は、自動メトリクスと人的評価の両方で最先端のパフォーマンスを確立する。
論文参考訳（メタデータ） (2025-02-20T18:22:44Z)
Enhancing In-vehicle Multiple Object Tracking Systems with Embeddable Ising Machines [0.10485739694839666]
フレキシブルな割り当て機能を備えた車内複数物体追跡システムについて述べる。このシステムは、シミュレート・バイフルケーション(simulated bifurcation)と呼ばれる量子インスパイアされたアルゴリズムに基づく埋め込み可能なIsingマシンに依存している。車両搭載型コンピューティングプラットフォームを用いて,拡張機能を備えたリアルタイムシステムワイドスループット(平均23フレーム/秒)を実演する。
論文参考訳（メタデータ） (2024-10-18T00:18:27Z)
CRASH: Crash Recognition and Anticipation System Harnessing with Context-Aware and Temporal Focus Attentions [13.981748780317329]
カメラ映像から周囲の交通機関の事故を正確にかつ迅速に予測することは、自動運転車(AV)の安全性に不可欠である本研究は, CRASH と呼ばれる, AV の新たな事故予測フレームワークを提案する。オブジェクト検出、特徴抽出、オブジェクト認識モジュール、コンテキスト認識モジュール、多層融合の5つのコンポーネントをシームレスに統合する。私たちのモデルは、平均精度(AP)や平均到達時間(mTTA)といった重要な評価指標において、既存のトップベースラインを超えています。
論文参考訳（メタデータ） (2024-07-25T04:12:49Z)
When, Where, and What? A Novel Benchmark for Accident Anticipation and Localization with Large Language Models [14.090582912396467]
本研究では,複数の次元にわたる予測能力を高めるために,LLM(Large Language Models)を統合した新しいフレームワークを提案する。複雑な運転シーンにおけるリスクの高い要素の優先順位を動的に調整する,革新的なチェーンベースアテンション機構を開発した。 DAD, CCD, A3Dデータセットの実証的検証は平均精度(AP)と平均時間到達精度(mTTA)において優れた性能を示す
論文参考訳（メタデータ） (2024-07-23T08:29:49Z)
Edge-Assisted ML-Aided Uncertainty-Aware Vehicle Collision Avoidance at Urban Intersections [12.812518632907771]
都市横断路におけるプリエンプティブ衝突を検出する新しい枠組みを提案する。 5Gネットワークのマルチアクセスエッジコンピューティングプラットフォームを利用する。
論文参考訳（メタデータ） (2024-04-22T18:45:40Z)
Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions [8.256630421682951]
RAID-Netは、モデル予測制御(MPC)予測地平線に沿って関連する相互作用を予測する、注目に基づく新しいリカレントニューラルネットワークである。本手法は, 移動計画問題の解法において, 12倍のスピードアップを示した。
論文参考訳（メタデータ） (2024-02-02T03:19:54Z)
Exploring Highly Quantised Neural Networks for Intrusion Detection in Automotive CAN [13.581341206178525]
機械学習に基づく侵入検出モデルは、標的となる攻撃ベクトルを複数検出することに成功した。本稿では,多クラス分類モデルとしてのカスタム量子化文学(CQMLP)について述べる。 IDSとして統合された2ビットCQMLPモデルでは、悪意のある攻撃メッセージを99.9%の精度で検出できることが示されている。
論文参考訳（メタデータ） (2024-01-19T21:11:02Z)
SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文参考訳（メタデータ） (2023-12-31T04:14:43Z)
A Memory-Augmented Multi-Task Collaborative Framework for Unsupervised Traffic Accident Detection in Driving Videos [22.553356096143734]
本稿では,運転ビデオにおける教師なし交通事故検出のためのメモリ拡張型マルチタスク協調フレームワーク(MAMTCF)を提案する。映像フレームの外観変化と物体の動きを同時にモデル化することにより,エゴ関連事故と非エゴ関連事故の両方をより正確に検出することができる。
論文参考訳（メタデータ） (2023-07-27T01:45:13Z)
Learned Risk Metric Maps for Kinodynamic Systems [54.49871675894546]
本研究では,高次元力学系のコヒーレントリスクメトリクスをリアルタイムに推定するための学習型リスクメトリクスマップを提案する。 LRMMモデルは設計と訓練が簡単で、障害セットの手続き的生成、状態と制御のサンプリング、および関数近似器の教師付きトレーニングのみを必要とする。
論文参考訳（メタデータ） (2023-02-28T17:51:43Z)
Augmenting Ego-Vehicle for Traffic Near-Miss and Accident Classification Dataset using Manipulating Conditional Style Translation [0.3441021278275805]
事故が起こる前の事故と近距離事故には差はない。我々の貢献は、事故の定義を再定義し、DADA-2000データセットにおける事故の不整合を再注釈することである。提案手法は、条件付きスタイル変換(CST)と分離可能な3次元畳み込みニューラルネットワーク(S3D)の2つの異なるコンポーネントを統合する。
論文参考訳（メタデータ） (2023-01-06T22:04:47Z)
MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。 MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文参考訳（メタデータ） (2022-12-19T15:05:40Z)
Cognitive Accident Prediction in Driving Scenes: A Multimodality Benchmark [77.54411007883962]
本研究では,視覚的観察と運転者の注意に対する人為的な文章記述の認識を効果的に活用し,モデルトレーニングを容易にする認知事故予測手法を提案する。 CAPは、注意テキスト〜ビジョンシフト融合モジュール、注意シーンコンテキスト転送モジュール、運転注意誘導事故予測モジュールによって構成される。我々は,1,727件の事故ビデオと219万フレーム以上の大規模ベンチマークを構築した。
論文参考訳（メタデータ） (2022-12-19T11:43:02Z)
Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文参考訳（メタデータ） (2022-11-27T18:13:05Z)
Congestion-aware Multi-agent Trajectory Prediction for Collision Avoidance [110.63037190641414]
渋滞パターンを明示的に学習し、新しい「センス--学習--Reason--予測」フレームワークを考案する。学習段階を2段階に分解することで、「学生」は「教師」から文脈的手がかりを学習し、衝突のない軌跡を生成する。実験では,提案モデルが合成データセットにおいて衝突のない軌道予測を生成できることを実証する。
論文参考訳（メタデータ） (2021-03-26T02:42:33Z)
A Driving Behavior Recognition Model with Bi-LSTM and Multi-Scale CNN [59.57221522897815]
運転行動認識のための軌道情報に基づくニューラルネットワークモデルを提案する。提案手法を公開BLVDデータセット上で評価し,満足な性能を実現する。
論文参考訳（メタデータ） (2021-03-01T06:47:29Z)
Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。私達のアプローチは人間の相互作用なしで完全に自動です。 VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文参考訳（メタデータ） (2020-12-15T03:03:38Z)
Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文参考訳（メタデータ） (2020-07-28T07:34:30Z)
MVLidarNet: Real-Time Multi-Class Scene Understanding for Autonomous Driving Using Multiple Views [60.538802124885414]
マルチビューLidarNet(MVLidarNet)は,多層物体検出とドライビング空間分割のための2段階のディープニューラルネットワークである。 MVLidarNetは、単一のLiDARスキャンを入力として、乾燥可能な空間を同時に決定しながら、オブジェクトを検出し、分類することができる。我々は、KITTIとはるかに大きな内部データセットの両方で結果を示し、その方法が桁違いにスケールできることを実証する。
論文参考訳（メタデータ） (2020-06-09T21:28:17Z)
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2020-05-13T16:35:27Z)
Traffic Signs Detection and Recognition System using Deep Learning [0.0]
本稿では,交通標識をリアルタイムに検出・認識するためのアプローチについて述べる。マルチオブジェクト検出システムの最先端技術を用いて,交通信号検出問題に取り組む。この論文の焦点は、F-RCNN Inception v2とTiny YOLO v2が最高の結果を得たときのものである。
論文参考訳（メタデータ） (2020-03-06T14:54:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。