論文の概要: Crash Time Matters: HybridMamba for Fine-Grained Temporal Localization in Traffic Surveillance Footage
- arxiv url: http://arxiv.org/abs/2504.03235v1
- Date: Fri, 04 Apr 2025 07:35:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:49:19.224195
- Title: Crash Time Matters: HybridMamba for Fine-Grained Temporal Localization in Traffic Surveillance Footage
- Title(参考訳): 衝突時刻:交通監視用フットージの微粒化時間定位用ハイブリッドマンバ
- Authors: Ibne Farabi Shihab, Anuj Sharma,
- Abstract要約: HybridMambaは、ビジュアルトランスフォーマーと状態空間の時間的モデリングを組み合わせた、新しいアーキテクチャである。
アイオワ州交通省の大規模なデータセットに基づいて評価され、HybridMambaは平均絶対誤差が1.50秒に達する。
- 参考スコア(独自算出の注目度): 2.4498030099331487
- License:
- Abstract: Traffic crash detection in long-form surveillance videos is critical for emergency response and infrastructure planning but remains difficult due to the brief and rare nature of crash events. We introduce HybridMamba, a novel architecture that combines visual transformers with state-space temporal modeling to achieve accurate crash time localization. Our method uses multi-level token compression and hierarchical temporal processing to remain computationally efficient without sacrificing temporal resolution. Evaluated on a large-scale dataset from the Iowa Department of Transportation, HybridMamba achieves a mean absolute error of 1.50 seconds, with 65.2 percent of predictions within one second of the ground truth. It outperforms recent video-language models such as TimeChat and VideoLLaMA2 by up to 2.8 seconds, while using significantly fewer parameters. Our results demonstrate strong generalization across videos ranging from 2 to 40 minutes in diverse conditions. HybridMamba offers a robust and efficient solution for fine-grained temporal localization in traffic surveillance. The code will be released upon publication.
- Abstract(参考訳): 長距離監視ビデオにおける交通事故検出は、緊急対応やインフラ計画において重要であるが、事故の短時間かつ稀な性質のため、依然として困難である。
我々は,視覚変換器と状態空間の時間的モデリングを組み合わせた,正確なクラッシュ時間定位を実現する新しいアーキテクチャであるHybridMambaを紹介する。
本手法では,時間分解能を犠牲にすることなく,多段階のトークン圧縮と階層的時間処理を用いて計算効率を維持する。
アイオワ州交通省の大規模なデータセットに基づいて評価され、HybridMambaは1.50秒の絶対誤差を平均65.2%で達成している。
TimeChatやVideoLLaMA2のような最近のビデオ言語モデルよりも2.8秒性能が優れており、パラメータは大幅に少ない。
その結果, 様々な条件下での2分から40分にわたる映像の一般化が強かった。
HybridMambaは、トラフィック監視における微粒な時間的ローカライゼーションのための堅牢で効率的なソリューションを提供する。
コードは公開時に公開される。
関連論文リスト
- AccidentBlip: Agent of Accident Warning based on MA-former [24.81148840857782]
AccidentBlipは視覚のみのフレームワークで、ビデオの各フレームを処理するために自設計のMotion Accident Transformer(MA-former)を使用している。
AccidentBlipは、DeepAccidentデータセット上の事故検出と予測タスクの両方のパフォーマンスを達成する。
また、V2VおよびV2Xシナリオにおける現在のSOTAメソッドよりも優れており、複雑な現実世界環境を理解するのに優れた能力を示している。
論文 参考訳(メタデータ) (2024-04-18T12:54:25Z) - Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions [8.256630421682951]
RAID-Netは、モデル予測制御(MPC)予測地平線に沿って関連する相互作用を予測する、注目に基づく新しいリカレントニューラルネットワークである。
本手法は, 移動計画問題の解法において, 12倍のスピードアップを示した。
論文 参考訳(メタデータ) (2024-02-02T03:19:54Z) - Fast Non-Rigid Radiance Fields from Monocularized Data [66.74229489512683]
本稿では,不規則に変形するシーンを360度内向きに合成する新しい手法を提案する。
提案手法のコアとなるのは, 空間情報と時間情報の処理を分離し, 訓練と推論を高速化する効率的な変形モジュール, 2) 高速ハッシュ符号化ニューラルラジオアンスフィールドとしての標準シーンを表す静的モジュールである。
どちらの場合も,本手法は従来の手法よりもはるかに高速で,7分未満で収束し,1K解像度でリアルタイムのフレームレートを実現するとともに,生成した新規なビューに対して高い視覚的精度が得られる。
論文 参考訳(メタデータ) (2022-12-02T18:51:10Z) - Traffic incident duration prediction via a deep learning framework for
text description encoding [9.424574945499842]
本稿では,限られた情報から入射時間を予測するための新しい融合フレームワークを提案する。
申請地域はサンフランシスコ市であり、交通事故記録と過去の交通渋滞情報の両方が豊富である。
論文 参考訳(メタデータ) (2022-09-19T03:16:13Z) - Context Recovery and Knowledge Retrieval: A Novel Two-Stream Framework
for Video Anomaly Detection [48.05512963355003]
本稿では,文脈回復と知識検索に基づく2ストリームフレームワークを提案する。
文脈回復ストリームに対しては,動き情報を完全に活用して将来のフレームを予測するU-Netを提案する。
知識検索ストリームに対して,学習可能な局所性に敏感なハッシュを提案する。
正規性に関する知識をハッシュテーブルにエンコードして格納し、テストイベントと知識表現の間の距離を用いて異常の確率を明らかにする。
論文 参考訳(メタデータ) (2022-09-07T03:12:02Z) - Vision in adverse weather: Augmentation using CycleGANs with various
object detectors for robust perception in autonomous racing [70.16043883381677]
自律レースでは、天気は突然変化し、認識が著しく低下し、非効率な操作が引き起こされる。
悪天候の検知を改善するために、ディープラーニングベースのモデルは通常、そのような状況下でキャプチャされた広範なデータセットを必要とする。
本稿では,5つの最先端検出器のうち4つの性能向上を図るために,自動レース(CycleGANを用いた)における合成悪条件データセットを用いた手法を提案する。
論文 参考訳(メタデータ) (2022-01-10T10:02:40Z) - DualFormer: Local-Global Stratified Transformer for Efficient Video
Recognition [140.66371549815034]
本稿では,映像認識のための時空間アテンションを効果的かつ効率的に行うことのできる,DualFormerと呼ばれる新しいトランスフォーマーアーキテクチャを提案する。
我々は、DualFormerがKinetics-400/600で新しい最先端の82.9%/85.2%のトップ-1の精度を1000Gの推論FLOPで設定していることを示す。
論文 参考訳(メタデータ) (2021-12-09T03:05:19Z) - Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文 参考訳(メタデータ) (2021-06-10T17:59:14Z) - An Efficient Approach for Anomaly Detection in Traffic Videos [30.83924581439373]
本稿では,エッジデバイスで動作可能な映像異常検出システムのための効率的な手法を提案する。
提案手法は,シーンの変化を検出し,破損したフレームを除去するプリプロセッシングモジュールを含む。
また,新しいシーンに迅速に適応し,類似度統計量の変化を検出するシーケンシャルな変化検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-20T04:43:18Z) - DeepVideoMVS: Multi-View Stereo on Video with Recurrent Spatio-Temporal
Fusion [67.64047158294062]
提案手法は,提案するビデオストリームに対するオンライン多視点深度予測手法である。
前のタイムステップで計算されたシーン形状情報を現在のタイムステップに伝搬する。
評価指標のほとんどにおいて、既存の最先端のマルチビューステレオ手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-03T18:54:03Z) - Edge Computing for Real-Time Near-Crash Detection for Smart
Transportation Applications [29.550609157368466]
交通事故に近いイベントは、さまざまなスマートトランスポートアプリケーションにとって重要なデータソースとなる。
本稿では,既存のダッシュカムの映像ストリームをリアルタイムに処理することで,エッジコンピューティングのパワーを活用してこれらの課題に対処する。
エッジコンピューティングをリアルタイムトラフィックビデオ分析に適用する最初の取り組みのひとつであり、スマートトランスポート研究やアプリケーションにおいて、複数のサブフィールドに恩恵をもたらすことが期待されている。
論文 参考訳(メタデータ) (2020-08-02T19:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。