論文の概要: A Modular Zero-Shot Pipeline for Accident Detection, Localization, and Classification in Traffic Surveillance Video
- arxiv url: http://arxiv.org/abs/2604.09685v1
- Date: Sun, 05 Apr 2026 05:18:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.587633
- Title: A Modular Zero-Shot Pipeline for Accident Detection, Localization, and Classification in Traffic Surveillance Video
- Title(参考訳): 交通監視ビデオにおける事故検出・局所化・分類のためのモジュラーゼロショットパイプライン
- Authors: Amey Thakur, Sarvesh Talele,
- Abstract要約: ACCIDENT @ CVPR 2026 チャレンジのために開発されたゼロショットパイプラインについて述べる。
この課題は、実世界のトレーニングデータをラベル付けすることなく、監視ビデオでいつ、どこで、どのような交通事故が発生するかを予測する必要がある。
我々の方法は問題を3つの独立したモジュールに分離する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe a zero-shot pipeline developed for the ACCIDENT @ CVPR 2026 challenge. The challenge requires predicting when, where, and what type of traffic accident occurs in surveillance video, without labeled real-world training data. Our method separates the problem into three independent modules. The first module localizes the collision in time by running peak detection on z-score normalized frame-difference signals. The second module finds the impact location by computing the weighted centroid of cumulative dense optical flow magnitude maps using the Farneback algorithm. The third module classifies collision type by measuring cosine similarity between CLIP image embeddings of frames near the detected peak and text embeddings built from multi-prompt natural language descriptions of each collision category. No domain-specific fine-tuning is involved; the pipeline processes each video using only pre-trained model weights. Our implementation is publicly available as a Kaggle notebook.
- Abstract(参考訳): ACCIDENT @ CVPR 2026 チャレンジのために開発されたゼロショットパイプラインについて述べる。
この課題は、実世界のトレーニングデータをラベル付けすることなく、監視ビデオでいつ、どこで、どのような交通事故が発生するかを予測する必要がある。
我々の方法は問題を3つの独立したモジュールに分離する。
第1モジュールは、zスコア正規化フレーム差分信号のピーク検出を実行することにより、時間内に衝突をローカライズする。
第2のモジュールは、Farnebackアルゴリズムを用いて、累積高密度光流度マップの重み付きセントロイドを計算することにより、衝撃位置を求める。
第3のモジュールは、検出されたピーク付近のフレームのCLIP画像埋め込みと、各衝突カテゴリのマルチプロンプト自然言語記述から構築されたテキスト埋め込みとのコサイン類似性を測定することで、衝突タイプを分類する。
ドメイン固有の微調整は不要で、パイプラインはトレーニング済みのモデルウェイトのみを使用して各ビデオを処理する。
私たちの実装はKaggleノートとして公開されています。
関連論文リスト
- ACCIDENT: A Benchmark Dataset for Vehicle Accident Detection from Traffic Surveillance Videos [0.0]
ACCIDENTはCCTVの映像における交通事故検出のためのベンチマークデータセットである。
教師付き(IIDとOOD)およびゼロショット設定でモデルを評価するように設計されている。
論文 参考訳(メタデータ) (2026-04-10T18:51:19Z) - AccidentBlip: Agent of Accident Warning based on MA-former [24.81148840857782]
AccidentBlipは視覚のみのフレームワークで、ビデオの各フレームを処理するために自設計のMotion Accident Transformer(MA-former)を使用している。
AccidentBlipは、DeepAccidentデータセット上の事故検出と予測タスクの両方のパフォーマンスを達成する。
また、V2VおよびV2Xシナリオにおける現在のSOTAメソッドよりも優れており、複雑な現実世界環境を理解するのに優れた能力を示している。
論文 参考訳(メタデータ) (2024-04-18T12:54:25Z) - Augmenting Ego-Vehicle for Traffic Near-Miss and Accident Classification
Dataset using Manipulating Conditional Style Translation [0.3441021278275805]
事故が起こる前の事故と近距離事故には差はない。
我々の貢献は、事故の定義を再定義し、DADA-2000データセットにおける事故の不整合を再注釈することである。
提案手法は、条件付きスタイル変換(CST)と分離可能な3次元畳み込みニューラルネットワーク(S3D)の2つの異なるコンポーネントを統合する。
論文 参考訳(メタデータ) (2023-01-06T22:04:47Z) - Cognitive Accident Prediction in Driving Scenes: A Multimodality
Benchmark [77.54411007883962]
本研究では,視覚的観察と運転者の注意に対する人為的な文章記述の認識を効果的に活用し,モデルトレーニングを容易にする認知事故予測手法を提案する。
CAPは、注意テキスト〜ビジョンシフト融合モジュール、注意シーンコンテキスト転送モジュール、運転注意誘導事故予測モジュールによって構成される。
我々は,1,727件の事故ビデオと219万フレーム以上の大規模ベンチマークを構築した。
論文 参考訳(メタデータ) (2022-12-19T11:43:02Z) - Real-time AdaBoost cascade face tracker based on likelihood map and
optical flow [59.17685450892182]
著者らは、光学フロー情報をヴィオラ・ジョーンズ検出アルゴリズムの修正版に組み込む新しい顔追跡手法を提案する。
元のアルゴリズムでは、前のフレームからの情報が考慮されないため、検出は静的である。
提案したトラッカーは、各ウィンドウが通過する分類段階の数に関する情報を保存する。
論文 参考訳(メタデータ) (2022-10-25T10:15:07Z) - Detection of road traffic crashes based on collision estimation [0.0]
フレームワークは5つのモジュールで構成されている。
主な目的は、誤報の少ない精度で高い精度を達成し、パイプライニング技術に基づく単純なシステムを実装することである。
論文 参考訳(メタデータ) (2022-07-26T13:21:15Z) - Active Learning of Neural Collision Handler for Complex 3D Mesh
Deformations [68.0524382279567]
3次元変形メッシュにおける衝突の検出と処理を行う頑健な学習アルゴリズムを提案する。
提案手法は教師あり学習法より優れ, 精度は93.8-98.1%である。
論文 参考訳(メタデータ) (2021-10-08T04:08:31Z) - Video-based Person Re-identification without Bells and Whistles [49.51670583977911]
ビデオベースの人物再識別(Re-ID)は、異なるカメラの下で歩行者を特定するために、ビデオトラッカーとトリミングされたビデオフレームをマッチングすることを目的としている。
従来の方法による不完全な検出と追跡の結果から, 収穫したトラックレットの空間的, 時間的不整合が生じている。
本稿では,深層学習に基づくトラックレットの検出と追跡を適用することで,これらの予期せぬノイズを効果的に低減できる簡易な再検出リンク(DL)モジュールを提案する。
論文 参考訳(メタデータ) (2021-05-22T10:17:38Z) - Do not trust the neighbors! Adversarial Metric Learning for
Self-Supervised Scene Flow Estimation [0.0]
シーンフローは動的3次元シーンの個々の点に3次元運動ベクトルを推定するタスクである。
本稿では,3次元シーンフローベンチマークと,トレーニングフローモデルのための新しい自己教師型セットアップを提案する。
我々は,移動コヒーレンスを保ち,多くの自監督ベースラインが把握できない局所的なジオメトリーを維持できることを発見した。
論文 参考訳(メタデータ) (2020-11-01T17:41:32Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。