論文の概要: Large-Scale Video Analytics through Object-Level Consolidation
- arxiv url: http://arxiv.org/abs/2111.15451v1
- Date: Tue, 30 Nov 2021 14:48:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 16:26:22.777432
- Title: Large-Scale Video Analytics through Object-Level Consolidation
- Title(参考訳): オブジェクトレベル統合による大規模ビデオ分析
- Authors: Daniel Rivas, Francesc Guim, Jord\`a Polo, David Carrera
- Abstract要約: ビデオ分析は、スマートシティや自動運転といった新しいユースケースを可能にする。
ビデオ分析は、スマートシティや自動運転といった新しいユースケースを可能にする。
- 参考スコア(独自算出の注目度): 1.299941371793082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the number of installed cameras grows, so do the compute resources
required to process and analyze all the images captured by these cameras. Video
analytics enables new use cases, such as smart cities or autonomous driving. At
the same time, it urges service providers to install additional compute
resources to cope with the demand while the strict latency requirements push
compute towards the end of the network, forming a geographically distributed
and heterogeneous set of compute locations, shared and resource-constrained.
Such landscape (shared and distributed locations) forces us to design new
techniques that can optimize and distribute work among all available locations
and, ideally, make compute requirements grow sublinearly with respect to the
number of cameras installed. In this paper, we present FoMO (Focus on Moving
Objects). This method effectively optimizes multi-camera deployments by
preprocessing images for scenes, filtering the empty regions out, and composing
regions of interest from multiple cameras into a single image that serves as
input for a pre-trained object detection model. Results show that overall
system performance can be increased by 8x while accuracy improves 40% as a
by-product of the methodology, all using an off-the-shelf pre-trained model
with no additional training or fine-tuning.
- Abstract(参考訳): 設置されるカメラの数が増えるにつれて、これらのカメラが捉えたすべての画像の処理と分析に必要な計算資源も増える。
ビデオ分析はスマートシティや自動運転といった新しいユースケースを可能にする。
同時に、サービスプロバイダは、要求に対処するために追加の計算リソースをインストールするよう促し、厳格なレイテンシ要件が計算をネットワークの終端に向けて押し付け、地理的に分散され、異質な計算場所、共有およびリソース制約のセットを形成する。
このような状況(共有された場所と分散された場所)は、利用可能なすべての場所で作業の最適化と分散を可能にし、理想的には、インストールされたカメラの数に関して、計算要求をサブライン的に増加させる新しいテクニックを設計させます。
本稿では,FoMO(Focus on moving Objects)について述べる。
この方法は、シーンのイメージを前処理し、空き領域をフィルタリングし、複数のカメラからの関心領域を、事前訓練対象検出モデルの入力として機能する単一の画像に構成することにより、効果的にマルチカメラ配置を最適化する。
その結果、システム全体の性能は8倍に向上し、精度は手法の副産物として40%向上し、全て追加のトレーニングや微調整を伴わない既訓練モデルを用いていることがわかった。
関連論文リスト
- Enabling Cross-Camera Collaboration for Video Analytics on Distributed
Smart Cameras [7.609628915907225]
本稿では、スマートカメラ上でのクロスカメラコラボレーションによる分散ビデオ分析システムArgusを紹介する。
マルチカメラ・マルチターゲットトラッキングを主課題であるマルチカメラ・ビデオ分析とし、冗長で処理量の多いタスクを避ける新しい手法を開発した。
Argusは最先端と比較してオブジェクトの識別とエンドツーエンドのレイテンシを最大7.13倍と2.19倍に削減する。
論文 参考訳(メタデータ) (2024-01-25T12:27:03Z) - Learning Online Policies for Person Tracking in Multi-View Environments [4.62316736194615]
MVSparseは、複数の同期カメラにまたがる協調的多人数追跡のための新しいフレームワークである。
MVSparseシステムは、エッジサーバベースのモデルと分散軽量強化学習(RL)エージェントを組み合わせた、慎重にオーケストレーションされたパイプラインで構成されている。
私たちの貢献には、マルチカメラの歩行者追跡データセットの実証分析、マルチカメラの開発、マルチパーソナリティ検出パイプラインの開発、MVSparseの実装などが含まれています。
論文 参考訳(メタデータ) (2023-12-26T02:57:11Z) - Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - Recognize Any Regions [59.08881073582635]
RegionSpotは、ローカライゼーション基盤モデルから位置認識のローカライゼーション知識と、ViLモデルから抽出されたセマンティック情報を統合するように設計されている。
我々のモデルは平均的精度(mAP)でGLIPを6.5%上回り、より困難で稀なカテゴリーではさらに14.8%の差がある。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Homography Estimation in Complex Topological Scenes [6.023710971800605]
監視ビデオや画像は、交通分析から犯罪検出まで、幅広い用途に使用されている。
外部カメラキャリブレーションデータは、ほとんどの分析アプリケーションにとって重要である。
本稿では,任意のカメラ設定に関する事前知識を必要としない辞書ベースのアプローチを活用した自動カメラ校正プロセスを提案する。
論文 参考訳(メタデータ) (2023-08-02T11:31:43Z) - Multi-Camera Collaborative Depth Prediction via Consistent Structure
Estimation [75.99435808648784]
本稿では,新しいマルチカメラ協調深度予測法を提案する。
カメラ間の構造的整合性を維持しながら、大きな重なり合う領域を必要としない。
DDADおよびNuScenesデータセットの実験結果から,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-05T03:44:34Z) - Cross-Camera Trajectories Help Person Retrieval in a Camera Network [124.65912458467643]
既存の手法では、純粋な視覚的マッチングや時間的制約を考慮することが多いが、カメラネットワークの空間情報は無視する。
本稿では,時間的情報と空間的情報を統合したクロスカメラ生成に基づく歩行者検索フレームワークを提案する。
本手法の有効性を検証するため,最初のカメラ横断歩行者軌跡データセットを構築した。
論文 参考訳(メタデータ) (2022-04-27T13:10:48Z) - Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization
Using Satellite Image [91.29546868637911]
本稿では,地上画像と架空衛星地図とをマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。
鍵となる考え方は、タスクをポーズ推定として定式化し、ニューラルネットベースの最適化によってそれを解くことである。
標準自動運転車のローカライゼーションデータセットの実験により,提案手法の優位性が確認された。
論文 参考訳(メタデータ) (2022-04-10T19:16:58Z) - Self-Supervised Camera Self-Calibration from Video [34.35533943247917]
汎用カメラモデルの効率的なファミリーを用いてシーケンスごとのキャリブレーションパラメータを回帰する学習アルゴリズムを提案する。
提案手法は,サブピクセル再投射誤差による自己校正を行い,他の学習手法よりも優れる。
論文 参考訳(メタデータ) (2021-12-06T19:42:05Z) - Towards Unsupervised Fine-Tuning for Edge Video Analytics [1.1091582432763736]
自動モデル特殊化による余分な計算コストを伴わずにエッジモデルの精度を向上させる手法を提案する。
その結果,本手法は,事前学習モデルの精度を平均21%向上できることがわかった。
論文 参考訳(メタデータ) (2021-04-14T12:57:40Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。