論文の概要: Enhancing Traffic Incident Response through Sub-Second Temporal Localization with HybridMamba
- arxiv url: http://arxiv.org/abs/2504.03235v2
- Date: Tue, 09 Sep 2025 02:48:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:26.792549
- Title: Enhancing Traffic Incident Response through Sub-Second Temporal Localization with HybridMamba
- Title(参考訳): ハイブリッドマンバを用いたサブセカンダリー時間定位による交通事故応答の促進
- Authors: Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma,
- Abstract要約: HybridMambaは、高速なクラッシュタイムローカライゼーションを実現するために、ビジュアルトランスフォーマーと状態空間の時間的モデリングを統合する新しいアーキテクチャである。
アイオワ州運輸省の大規模なデータセットに基づいて評価され、HybridMambaは2分間のビデオに対して平均絶対誤差のtextbf1.50秒を達成している。
- 参考スコア(独自算出の注目度): 6.908972852063454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traffic crash detection in long-form surveillance videos is essential for improving emergency response and infrastructure planning, yet remains difficult due to the brief and infrequent nature of crash events. We present \textbf{HybridMamba}, a novel architecture integrating visual transformers with state-space temporal modeling to achieve high-precision crash time localization. Our approach introduces multi-level token compression and hierarchical temporal processing to maintain computational efficiency without sacrificing temporal resolution. Evaluated on a large-scale dataset from the Iowa Department of Transportation, HybridMamba achieves a mean absolute error of \textbf{1.50 seconds} for 2-minute videos ($p<0.01$ compared to baselines), with \textbf{65.2%} of predictions falling within one second of the ground truth. It outperforms recent video-language models (e.g., TimeChat, VideoLLaMA-2) by up to 3.95 seconds while using significantly fewer parameters (3B vs. 13--72B). Our results demonstrate effective temporal localization across various video durations (2--40 minutes) and diverse environmental conditions, highlighting HybridMamba's potential for fine-grained temporal localization in traffic surveillance while identifying challenges that remain for extended deployment.
- Abstract(参考訳): 長距離監視ビデオにおける交通事故検出は、緊急対応とインフラ計画の改善に不可欠であるが、事故の短時間かつ頻繁な性質のため、依然として困難である。
本稿では,視覚変換器と状態空間の時間的モデリングを統合し,高精度なクラッシュタイムローカライゼーションを実現する新しいアーキテクチャである「textbf{HybridMamba}」を提案する。
提案手法では,時間分解能を犠牲にすることなく計算効率を維持するため,マルチレベルトークン圧縮と階層時間処理を導入している。
アイオワ州運輸省の大規模データセットに基づいて評価されたHybridMambaは、2分間の動画(ベースラインに比べて0.01ドル)に対して、平均絶対誤差の‘textbf{1.50秒’を達成する。
近年の映像言語モデル(例えば、TimeChat、VideoLLaMA-2)では、パラメータが大幅に少ない(3B vs. 13--72B)のに、最大3.95秒で性能が向上し、様々な映像時間(2-40分)と多様な環境条件にまたがる効果的な時間的ローカライゼーションを実証し、ハイブリッド・マンバの交通監視における微粒な時間的ローカライゼーションの可能性を強調した。
関連論文リスト
- VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - AccidentBlip: Agent of Accident Warning based on MA-former [24.81148840857782]
AccidentBlipは視覚のみのフレームワークで、ビデオの各フレームを処理するために自設計のMotion Accident Transformer(MA-former)を使用している。
AccidentBlipは、DeepAccidentデータセット上の事故検出と予測タスクの両方のパフォーマンスを達成する。
また、V2VおよびV2Xシナリオにおける現在のSOTAメソッドよりも優れており、複雑な現実世界環境を理解するのに優れた能力を示している。
論文 参考訳(メタデータ) (2024-04-18T12:54:25Z) - Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions [8.256630421682951]
RAID-Netは、モデル予測制御(MPC)予測地平線に沿って関連する相互作用を予測する、注目に基づく新しいリカレントニューラルネットワークである。
本手法は, 移動計画問題の解法において, 12倍のスピードアップを示した。
論文 参考訳(メタデータ) (2024-02-02T03:19:54Z) - Fast Non-Rigid Radiance Fields from Monocularized Data [66.74229489512683]
本稿では,不規則に変形するシーンを360度内向きに合成する新しい手法を提案する。
提案手法のコアとなるのは, 空間情報と時間情報の処理を分離し, 訓練と推論を高速化する効率的な変形モジュール, 2) 高速ハッシュ符号化ニューラルラジオアンスフィールドとしての標準シーンを表す静的モジュールである。
どちらの場合も,本手法は従来の手法よりもはるかに高速で,7分未満で収束し,1K解像度でリアルタイムのフレームレートを実現するとともに,生成した新規なビューに対して高い視覚的精度が得られる。
論文 参考訳(メタデータ) (2022-12-02T18:51:10Z) - Traffic incident duration prediction via a deep learning framework for
text description encoding [9.424574945499842]
本稿では,限られた情報から入射時間を予測するための新しい融合フレームワークを提案する。
申請地域はサンフランシスコ市であり、交通事故記録と過去の交通渋滞情報の両方が豊富である。
論文 参考訳(メタデータ) (2022-09-19T03:16:13Z) - Context Recovery and Knowledge Retrieval: A Novel Two-Stream Framework
for Video Anomaly Detection [48.05512963355003]
本稿では,文脈回復と知識検索に基づく2ストリームフレームワークを提案する。
文脈回復ストリームに対しては,動き情報を完全に活用して将来のフレームを予測するU-Netを提案する。
知識検索ストリームに対して,学習可能な局所性に敏感なハッシュを提案する。
正規性に関する知識をハッシュテーブルにエンコードして格納し、テストイベントと知識表現の間の距離を用いて異常の確率を明らかにする。
論文 参考訳(メタデータ) (2022-09-07T03:12:02Z) - Vision in adverse weather: Augmentation using CycleGANs with various
object detectors for robust perception in autonomous racing [70.16043883381677]
自律レースでは、天気は突然変化し、認識が著しく低下し、非効率な操作が引き起こされる。
悪天候の検知を改善するために、ディープラーニングベースのモデルは通常、そのような状況下でキャプチャされた広範なデータセットを必要とする。
本稿では,5つの最先端検出器のうち4つの性能向上を図るために,自動レース(CycleGANを用いた)における合成悪条件データセットを用いた手法を提案する。
論文 参考訳(メタデータ) (2022-01-10T10:02:40Z) - DualFormer: Local-Global Stratified Transformer for Efficient Video
Recognition [140.66371549815034]
本稿では,映像認識のための時空間アテンションを効果的かつ効率的に行うことのできる,DualFormerと呼ばれる新しいトランスフォーマーアーキテクチャを提案する。
我々は、DualFormerがKinetics-400/600で新しい最先端の82.9%/85.2%のトップ-1の精度を1000Gの推論FLOPで設定していることを示す。
論文 参考訳(メタデータ) (2021-12-09T03:05:19Z) - Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文 参考訳(メタデータ) (2021-06-10T17:59:14Z) - An Efficient Approach for Anomaly Detection in Traffic Videos [30.83924581439373]
本稿では,エッジデバイスで動作可能な映像異常検出システムのための効率的な手法を提案する。
提案手法は,シーンの変化を検出し,破損したフレームを除去するプリプロセッシングモジュールを含む。
また,新しいシーンに迅速に適応し,類似度統計量の変化を検出するシーケンシャルな変化検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-20T04:43:18Z) - DeepVideoMVS: Multi-View Stereo on Video with Recurrent Spatio-Temporal
Fusion [67.64047158294062]
提案手法は,提案するビデオストリームに対するオンライン多視点深度予測手法である。
前のタイムステップで計算されたシーン形状情報を現在のタイムステップに伝搬する。
評価指標のほとんどにおいて、既存の最先端のマルチビューステレオ手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-03T18:54:03Z) - Edge Computing for Real-Time Near-Crash Detection for Smart
Transportation Applications [29.550609157368466]
交通事故に近いイベントは、さまざまなスマートトランスポートアプリケーションにとって重要なデータソースとなる。
本稿では,既存のダッシュカムの映像ストリームをリアルタイムに処理することで,エッジコンピューティングのパワーを活用してこれらの課題に対処する。
エッジコンピューティングをリアルタイムトラフィックビデオ分析に適用する最初の取り組みのひとつであり、スマートトランスポート研究やアプリケーションにおいて、複数のサブフィールドに恩恵をもたらすことが期待されている。
論文 参考訳(メタデータ) (2020-08-02T19:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。