論文の概要: STAC: Leveraging Spatio-Temporal Data Associations For Efficient Cross-Camera Streaming and Analytics
- arxiv url: http://arxiv.org/abs/2401.15288v2
- Date: Wed, 13 Aug 2025 15:28:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.42061
- Title: STAC: Leveraging Spatio-Temporal Data Associations For Efficient Cross-Camera Streaming and Analytics
- Title(参考訳): STAC: 効率的なクロスカメラストリーミングと分析のための時空間データアソシエーションを活用する
- Authors: Ragini Gupta, Lingzhi Zhao, Jiaxi Li, Volodymyr Vakhniuk, Claudiu Danilov, Josh Eckhardt, Keyshla Bernard, Klara Nahrstedt,
- Abstract要約: 分散カメラネットワークでは、高帯域要求と冗長な視覚データにより、リアルタイムマルチカメラビデオ分析が課題となっている。
制約されたネットワーク条件下での効率的な物体追跡のために,マルチ時間アソシエーションを利用したクロスカメラ監視システムSTACを提案する。
- 参考スコア(独自算出の注目度): 5.752749052742801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In IoT based distributed network of cameras, real-time multi-camera video analytics is challenged by high bandwidth demands and redundant visual data, creating a fundamental tension where reducing data saves network overhead but can degrade model performance, and vice versa. We present STAC, a cross-cameras surveillance system that leverages spatio-temporal associations for efficient object tracking under constrained network conditions. STAC integrates multi-resolution feature learning, ensuring robustness under variable networked system level optimizations such as frame filtering, FFmpeg-based compression, and Region-of-Interest (RoI) masking, to eliminate redundant content across distributed video streams while preserving downstream model accuracy for object identification and tracking. Evaluated on NVIDIA's AICity Challenge dataset, STAC achieves a 76\% improvement in tracking accuracy and an 8.6x reduction in inference latency over a standard multi-object multi-camera tracking baseline (using YOLOv4 and DeepSORT). Furthermore, 29\% of redundant frames are filtered, significantly reducing data volume without compromising inference quality.
- Abstract(参考訳): IoTベースの分散カメラネットワークでは、リアルタイムのマルチカメラビデオ分析は、高帯域幅要求と冗長な視覚データによって困難にさらされている。
拘束されたネットワーク条件下での効率的な物体追跡に時空間アソシエーションを利用するクロスカメラ監視システムSTACを提案する。
STACはマルチレゾリューション機能学習を統合し、フレームフィルタリング、FFmpegベースの圧縮、Rerea-of-Interest(RoI)マスキングなどの可変ネットワークレベルの最適化の下で堅牢性を確保し、オブジェクトの識別と追跡のために下流モデルの精度を保ちながら、分散ビデオストリーム間の冗長なコンテンツを排除する。
NVIDIAのAICity Challengeデータセットに基づいて評価され、STACはトラッキング精度が76パーセント改善され、標準のマルチオブジェクトマルチカメラトラッキングベースライン(YOLOv4とDeepSORTを使用して)よりも8.6倍の遅延が削減された。
さらに、冗長フレームの29\%をフィルタリングし、推論品質を損なうことなくデータボリュームを大幅に削減する。
関連論文リスト
- Accelerated Event-Based Feature Detection and Compression for
Surveillance Video Systems [1.5390526524075634]
スパース圧縮表現において時間的冗長性を伝達する新しいシステムを提案する。
我々はADDERと呼ばれるビデオ表現フレームワークを利用して、フレーム化されたビデオを疎結合で非同期な強度サンプルに変換する。
我々の研究は、今後のニューロモルフィックセンサーの道を切り拓き、スパイクニューラルネットワークによる将来の応用に有効である。
論文 参考訳(メタデータ) (2023-12-13T15:30:29Z) - Learn to Compress (LtC): Efficient Learning-based Streaming Video
Analytics [3.2872586139884623]
LtCは、ビデオソースと分析サーバの協調フレームワークで、分析パイプライン内のビデオストリームの削減を効率的に学習する。
LtCは28~35%の帯域幅を使用でき、最近公開されたアートストリーミングフレームワークと比較して最大45%のレスポンス遅延がある。
論文 参考訳(メタデータ) (2023-07-22T21:36:03Z) - Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。
我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。
実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T07:47:27Z) - GPU-accelerated SIFT-aided source identification of stabilized videos [63.084540168532065]
我々は、安定化フレームインバージョンフレームワークにおけるグラフィクス処理ユニット(GPU)の並列化機能を利用する。
我々はSIFT機能を活用することを提案する。
カメラのモーメントを推定し 1%の確率で 時間セグメントを識別します
実験により,提案手法の有効性を確認し,必要な計算時間を短縮し,情報源の同定精度を向上させる。
論文 参考訳(メタデータ) (2022-07-29T07:01:31Z) - FrameHopper: Selective Processing of Video Frames in Detection-driven
Real-Time Video Analytics [2.5119455331413376]
検出駆動リアルタイムビデオ分析では、ビデオフレームに含まれるオブジェクトを連続的に検出する必要がある。
これらの検出器をリソース制約されたエッジデバイスの各フレームで実行することは、計算集約的である。
本稿では,これらのスキップ長を決定するために,オフライン強化学習(RL)に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-22T07:05:57Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Personal Privacy Protection via Irrelevant Faces Tracking and Pixelation
in Video Live Streaming [61.145467627057194]
我々は、ビデオライブストリーミングにおいて、自動プライバシーフィルタリングを生成するためのFace Pixelationと呼ばれる新しい方法を開発した。
無関係な人々の顔の高速かつ正確なピクセル化のために、FPVLSは2つのコアステージのフレームツービデオ構造で構成されています。
収集したビデオライブストリーミングデータセットにおいて、FPVLSは満足度の高い精度、リアルタイム効率を取得し、オーバーピクセル問題を含む。
論文 参考訳(メタデータ) (2021-01-04T16:18:26Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - Single Shot Video Object Detector [215.06904478667337]
Single Shot Video Object Detector (SSVD)は、新しいアーキテクチャであり、ビデオ内のオブジェクト検出のための1段階の検出器に機能集約を新規に統合する。
448の448ドルの入力で、SSVDはImageNet VIDデータセットで79.2%のmAPを達成した。
論文 参考訳(メタデータ) (2020-07-07T15:36:26Z) - CONVINCE: Collaborative Cross-Camera Video Analytics at the Edge [1.5469452301122173]
本稿では,カメラ間の協調的なビデオ分析パイプラインを実現するため,カメラを集合体として見るための新しいアプローチであるCONVINCEを紹介する。
以上の結果から, CONVINCEは記録フレームの約25%を送信し, オブジェクト識別精度が$sim$91%であることを示す。
論文 参考訳(メタデータ) (2020-02-05T23:55:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。