論文の概要: Two-Pass Zero-Shot Temporal-Spatial Grounding of Rare Traffic Events in Surveillance Video
- arxiv url: http://arxiv.org/abs/2605.01512v1
- Date: Sat, 02 May 2026 16:05:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.811026
- Title: Two-Pass Zero-Shot Temporal-Spatial Grounding of Rare Traffic Events in Surveillance Video
- Title(参考訳): サーベイランス映像における希少交通事象の2相ゼロショット時空間グラウンド
- Authors: Jiantang Huang,
- Abstract要約: 実際のCCTV映像における地上交通事故は、ラベル付き事故映像のトレーニングがしばしば禁止される希少な問題である。
我々は、凍結した視覚言語モデルからこのジョイント出力を引き出す、微調整のパイプラインを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grounding traffic accidents in real CCTV footage is a rare-event problem where training on labeled accident video is often prohibited, yet accurate joint localization in time, space, and collision type is required. We present a no-fine-tuning pipeline that elicits this joint output from frozen vision-language models through two ideas. First, a coarse-to-fine two-pass decomposition: a full-video pass at 1 fps produces a coarse (t, x, y, c) tuple, then a second pass at 5 fps within a +/- 3 s window refines time and location, with two deterministic confidence gates that revert to the coarse estimate on boundary hedges or edge-clamped coordinates. Second, a specialist role assignment: Qwen3-VL-Plus handles grounding, Gemini 3.1 Flash-Lite handles typing on a centered video clip. On the ACCIDENT@CVPR 2026 benchmark (2,027 real CCTV videos) we reach ACC^S = 0.539 (95% CI [0.525, 0.553]): +0.127 over the benchmark paper's best-of-baselines oracle (0.412), +0.143 over the strongest single-VLM baseline (Molmo-7B, 0.396), and +0.250 over the naive baseline (0.289). The VLM path uses up to three API calls per video (17% fall back to physics on API failures); the full run costs ~$20.
- Abstract(参考訳): 実際のCCTV映像における地上交通事故は、ラベル付き事故映像のトレーニングがしばしば禁止される稀な問題であるが、時間、空間、衝突タイプにおける正確な共同位置決めが必要である。
凍結した視覚言語モデルからこのジョイント出力を2つのアイデアを通じて引き出す、微調整のパイプラインを提案する。
1 fpsのフルビデオパスは粗い (t, x, y, c) タプルを生成し、その後、a +/-3 sウィンドウ内の5 fpsの2番目のパスは時間と位置を洗練し、2つの決定論的信頼ゲートは境界ヘッジまたはエッジクランプされた座標の粗い推定に逆戻りする。
第2に、Qwen3-VL-Plusはグラウンド処理、Gemini 3.1 Flash-Liteは中心となるビデオクリップでタイピングを行う。
ACCIDENT@CVPR 2026ベンチマーク(実CCTVビデオ2,027本)では、ACC^S = 0.539(95% CI [0.525, 0.553]):+0.127本(0.412本)、+0.143本(Molmo-7B, 0.396本)、+0.250本(0.289本)に達する。
VLMパスでは、ビデオ毎に最大3つのAPIコール(17%はAPI障害の物理復帰)を使用する。
関連論文リスト
- Instance-level Visual Active Tracking with Occlusion-Aware Planning [61.982298426203165]
Visual Active Tracking (VAT)は、カメラを3D空間でターゲットに追従することを目的としている。
VATは、視覚的に類似したイントラクタからの混乱と、閉塞下での深刻な障害という、現実世界のデプロイメントにおいて2つの重要なボトルネックに直面している。
3つの相補的なモジュールを持つ統一パイプラインであるOA-VATを提案する。
論文 参考訳(メタデータ) (2026-04-23T09:11:50Z) - A Modular Zero-Shot Pipeline for Accident Detection, Localization, and Classification in Traffic Surveillance Video [0.0]
ACCIDENT @ CVPR 2026 チャレンジのために開発されたゼロショットパイプラインについて述べる。
この課題は、実世界のトレーニングデータをラベル付けすることなく、監視ビデオでいつ、どこで、どのような交通事故が発生するかを予測する必要がある。
我々の方法は問題を3つの独立したモジュールに分離する。
論文 参考訳(メタデータ) (2026-04-05T05:18:19Z) - Scaling DoRA: High-Rank Adaptation via Factored Norms and Fused Kernels [83.99688944263843]
DoRA(Weight-De Low-Rank Adaptation)は、LoRAを方向から分離することで拡張する。
d_in = 8192 とランク r = 384 では、単一のモジュールのノルムは bf16 で512MB の過渡的なワーキングメモリを必要とする。
因子ノルムは、二乗ノルムを O(d_out r + r2) 中間体を通して計算可能な基底、交差、およびグラマー項に分解し、密積を除去する。
論文 参考訳(メタデータ) (2026-03-23T17:57:24Z) - ParkingTwin: Training-Free Streaming 3D Reconstruction for Parking-Lot Digital Twins [8.681741531117366]
ParkingTwinは、オンラインストリーミング3D再構築のためのトレーニング不要で軽量なシステムである。
エントリーレベルのGTX 1660では30FPS以上で動作する。
論文 参考訳(メタデータ) (2026-01-20T08:03:58Z) - Semantic-Drive: Democratizing Long-Tail Data Curation via Open-Vocabulary Grounding and Neuro-Symbolic VLM Consensus [0.0]
セマンティックドライブ(Semantic-Drive)は、セマンティックなデータマイニングのための、ローカルファーストで、ニューロシンボリックなフレームワークである。
提案手法は,(1)リアルタイムオープン語彙検出装置(YOLOE)によるグラウンドニングと,(2)推論VLMによる認知分析の2つの段階に分離する。
論文 参考訳(メタデータ) (2025-12-12T20:07:04Z) - POVQA: Preference-Optimized Video Question Answering with Rationales for Data Efficiency [3.4998703934432682]
近年,VQAタスクには1500以上のフレームのコンテキストウィンドウが設けられている。
データ効率のよいパイプラインであるPOVQAを導入し、ビデオの各秒を1つの時間プール画像に圧縮する。
論文 参考訳(メタデータ) (2025-10-01T15:15:36Z) - From Play to Replay: Composed Video Retrieval for Temporally Fine-Grained Videos [48.666667545084835]
Composed Video Retrieval(CoVR)は、クエリビデオと、意図した変更を記述した修正テキストが与えられたターゲットビデオを取得する。
TF-CoVRは、時間的にきめ細かなCoVRに特化した最初の大規模ベンチマークである。
TF-CoVRは体操とダイビングに重点を置いており、FinGymとFineDivingから180Kのトリプルを提供している。
論文 参考訳(メタデータ) (2025-06-05T17:31:17Z) - VideoFlow: Exploiting Temporal Cues for Multi-frame Optical Flow
Estimation [61.660040308290796]
VideoFlowはビデオのための新しい光フロー推定フレームワークである。
まず、TRiフレーム光フロー(TROF)モジュールを提案し、3フレーム方式で中央フレームの双方向光フローを推定する。
反復流量推定精細化により、個々のTROFに融合した情報をMOPを介して全シーケンスに伝播することができる。
論文 参考訳(メタデータ) (2023-03-15T03:14:30Z) - DualFormer: Local-Global Stratified Transformer for Efficient Video
Recognition [140.66371549815034]
本稿では,映像認識のための時空間アテンションを効果的かつ効率的に行うことのできる,DualFormerと呼ばれる新しいトランスフォーマーアーキテクチャを提案する。
我々は、DualFormerがKinetics-400/600で新しい最先端の82.9%/85.2%のトップ-1の精度を1000Gの推論FLOPで設定していることを示す。
論文 参考訳(メタデータ) (2021-12-09T03:05:19Z) - Spatiotemporal Contrastive Video Representation Learning [87.56145031149869]
ラベルのないビデオから視覚的表現を学習するための,自己指導型コントラスト映像表現学習(CVRL)法を提案する。
我々の表現は、コントラスト時間的損失を用いて学習され、同じ短いビデオから2つの強化されたクリップが埋め込み空間にまとめられる。
本研究では,ビデオ自己教師型学習におけるデータ向上の要因について検討し,空間的情報と時間的情報の両方が重要であることを明らかにする。
論文 参考訳(メタデータ) (2020-08-09T19:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。