論文の概要: Single-Frame based Deep View Synchronization for Unsynchronized
Multi-Camera Surveillance
- arxiv url: http://arxiv.org/abs/2007.03891v3
- Date: Mon, 2 May 2022 16:45:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 13:14:59.715877
- Title: Single-Frame based Deep View Synchronization for Unsynchronized
Multi-Camera Surveillance
- Title(参考訳): 非同期マルチカメラ監視のためのシングルフレームベースのディープビュー同期
- Authors: Qi Zhang and Antoni B. Chan
- Abstract要約: マルチカメラ監視はシーンの理解とモデリングにおいて活発な研究課題となっている。
通常、これらのマルチカメラベースのタスクのモデルを設計する際に、カメラはすべて時間的に同期していると仮定される。
我々のビュー同期モデルは、非同期設定下で異なるDNNベースのマルチカメラビジョンタスクに適用される。
- 参考スコア(独自算出の注目度): 56.964614522968226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-camera surveillance has been an active research topic for understanding
and modeling scenes. Compared to a single camera, multi-cameras provide larger
field-of-view and more object cues, and the related applications are multi-view
counting, multi-view tracking, 3D pose estimation or 3D reconstruction, etc. It
is usually assumed that the cameras are all temporally synchronized when
designing models for these multi-camera based tasks. However, this assumption
is not always valid,especially for multi-camera systems with network
transmission delay and low frame-rates due to limited network bandwidth,
resulting in desynchronization of the captured frames across cameras. To handle
the issue of unsynchronized multi-cameras, in this paper, we propose a
synchronization model that works in conjunction with existing DNN-based
multi-view models, thus avoiding the redesign of the whole model. Under the
low-fps regime, we assume that only a single relevant frame is available from
each view, and synchronization is achieved by matching together image contents
guided by epipolar geometry. We consider two variants of the model, based on
where in the pipeline the synchronization occurs, scene-level synchronization
and camera-level synchronization. The view synchronization step and the
task-specific view fusion and prediction step are unified in the same framework
and trained in an end-to-end fashion. Our view synchronization models are
applied to different DNNs-based multi-camera vision tasks under the
unsynchronized setting, including multi-view counting and 3D pose estimation,
and achieve good performance compared to baselines.
- Abstract(参考訳): マルチカメラ監視はシーンの理解とモデリングにおいて活発な研究課題となっている。
単一のカメラと比較して、マルチカメラは視野の広いオブジェクトキューを提供し、関連するアプリケーションはマルチビューカウント、マルチビュートラッキング、3Dポーズ推定、あるいは3D再構成などである。
通常、これらのマルチカメラベースのタスクのモデルを設計する際、カメラは全て時間的同期であると仮定される。
しかし、この仮定は必ずしも有効ではなく、特にネットワーク伝送遅延とネットワーク帯域幅の制限によるフレームレートの低いマルチカメラシステムでは、キャプチャされたフレームをカメラ間で非同期化する。
本稿では,非同期マルチカメラの問題に対処するため,既存のDNNベースのマルチビューモデルと協調して動作する同期モデルを提案する。
低fps環境下では、各ビューから1つの関連するフレームのみが利用可能であると仮定し、エピポーラ幾何によって導かれた画像コンテンツのマッチングによって同期を実現する。
本稿では,パイプライン内で同期が発生する場所,シーンレベルの同期,カメラレベルの同期の2つのモデルについて考察する。
ビュー同期ステップとタスク固有のビュー融合と予測ステップは同じフレームワークで統一され、エンドツーエンドでトレーニングされます。
我々のビュー同期モデルは、マルチビューカウントや3Dポーズ推定を含む非同期環境下での異なるDNNベースのマルチカメラビジョンタスクに適用し、ベースラインと比較して優れた性能を実現する。
関連論文リスト
- Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。
このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。
また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文 参考訳(メタデータ) (2024-01-29T18:59:55Z) - Enabling Cross-Camera Collaboration for Video Analytics on Distributed
Smart Cameras [7.609628915907225]
本稿では、スマートカメラ上でのクロスカメラコラボレーションによる分散ビデオ分析システムArgusを紹介する。
マルチカメラ・マルチターゲットトラッキングを主課題であるマルチカメラ・ビデオ分析とし、冗長で処理量の多いタスクを避ける新しい手法を開発した。
Argusは最先端と比較してオブジェクトの識別とエンドツーエンドのレイテンシを最大7.13倍と2.19倍に削減する。
論文 参考訳(メタデータ) (2024-01-25T12:27:03Z) - SyncDreamer: Generating Multiview-consistent Images from a Single-view Image [59.75474518708409]
SyncDreamerと呼ばれる新しい拡散モデルが単一ビュー画像から複数ビュー一貫性のある画像を生成する。
実験の結果、SyncDreamerはさまざまなビューに対して高い一貫性を持つ画像を生成することがわかった。
論文 参考訳(メタデータ) (2023-09-07T02:28:04Z) - Sparse in Space and Time: Audio-visual Synchronisation with Trainable
Selectors [103.21152156339484]
本研究の目的は,一般映像の「野生」音声・視覚同期である。
我々は4つのコントリビューションを行う: (i) スパース同期信号に必要な長時間の時間的シーケンスを処理するために、'セレクタ'を利用するマルチモーダルトランスモデルを設計する。
音声やビデオに使用される圧縮コーデックから生じるアーティファクトを識別し、トレーニングにおいてオーディオ視覚モデルを用いて、同期タスクを人工的に解くことができる。
論文 参考訳(メタデータ) (2022-10-13T14:25:37Z) - MultiBodySync: Multi-Body Segmentation and Motion Estimation via 3D Scan
Synchronization [61.015704878681795]
本稿では,3次元点雲のための多体運動分節と剛性登録フレームワークを提案する。
このマルチスキャンマルチボディ設定によって生じる2つの非自明な課題は、である。
複数の入力ポイントクラウド間の対応性とセグメンテーション一貫性の保証
新規な対象カテゴリーに適用可能なロバストな運動に基づく剛体セグメンテーションを得る。
論文 参考訳(メタデータ) (2021-01-17T06:36:28Z) - Asynchronous Multi-View SLAM [78.49842639404413]
既存のマルチカメラSLAMシステムは、すべてのカメラの同期シャッターを想定しています。
我々のフレームワークは、トラッキング、ローカルマッピング、ループクローズの間、非同期多フレーム間で情報を関連付けるために、連続時間モーションモデルを統合する。
論文 参考訳(メタデータ) (2021-01-17T00:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。