Fugu-MT 論文翻訳(概要): Large-Scale Video Analytics through Object-Level Consolidation

論文の概要: Large-Scale Video Analytics through Object-Level Consolidation

arxiv url: http://arxiv.org/abs/2111.15451v1
Date: Tue, 30 Nov 2021 14:48:54 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-01 16:26:22.777432
Title: Large-Scale Video Analytics through Object-Level Consolidation
Title（参考訳）: オブジェクトレベル統合による大規模ビデオ分析
Authors: Daniel Rivas, Francesc Guim, Jord\`a Polo, David Carrera
Abstract要約: ビデオ分析は、スマートシティや自動運転といった新しいユースケースを可能にする。ビデオ分析は、スマートシティや自動運転といった新しいユースケースを可能にする。
参考スコア（独自算出の注目度）: 1.299941371793082
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As the number of installed cameras grows, so do the compute resources required to process and analyze all the images captured by these cameras. Video analytics enables new use cases, such as smart cities or autonomous driving. At the same time, it urges service providers to install additional compute resources to cope with the demand while the strict latency requirements push compute towards the end of the network, forming a geographically distributed and heterogeneous set of compute locations, shared and resource-constrained. Such landscape (shared and distributed locations) forces us to design new techniques that can optimize and distribute work among all available locations and, ideally, make compute requirements grow sublinearly with respect to the number of cameras installed. In this paper, we present FoMO (Focus on Moving Objects). This method effectively optimizes multi-camera deployments by preprocessing images for scenes, filtering the empty regions out, and composing regions of interest from multiple cameras into a single image that serves as input for a pre-trained object detection model. Results show that overall system performance can be increased by 8x while accuracy improves 40% as a by-product of the methodology, all using an off-the-shelf pre-trained model with no additional training or fine-tuning.
Abstract（参考訳）: 設置されるカメラの数が増えるにつれて、これらのカメラが捉えたすべての画像の処理と分析に必要な計算資源も増える。ビデオ分析はスマートシティや自動運転といった新しいユースケースを可能にする。同時に、サービスプロバイダは、要求に対処するために追加の計算リソースをインストールするよう促し、厳格なレイテンシ要件が計算をネットワークの終端に向けて押し付け、地理的に分散され、異質な計算場所、共有およびリソース制約のセットを形成する。このような状況(共有された場所と分散された場所)は、利用可能なすべての場所で作業の最適化と分散を可能にし、理想的には、インストールされたカメラの数に関して、計算要求をサブライン的に増加させる新しいテクニックを設計させます。本稿では,FoMO(Focus on moving Objects)について述べる。この方法は、シーンのイメージを前処理し、空き領域をフィルタリングし、複数のカメラからの関心領域を、事前訓練対象検出モデルの入力として機能する単一の画像に構成することにより、効果的にマルチカメラ配置を最適化する。その結果、システム全体の性能は8倍に向上し、精度は手法の副産物として40%向上し、全て追加のトレーニングや微調整を伴わない既訓練モデルを用いていることがわかった。

関連論文リスト

Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video Recognition [82.75714185083383]
本稿では,映像理解におけるデータ冗長性の現象について検討し,計算効率の向上を目的とした。この現象に触発され,AdaFocusと呼ばれる空間適応型ビデオ認識手法を導入する。得られたフレームワークであるUni-AdaFocusは、シームレスに空間的、時間的、サンプルワイドな動的計算を統合する包括的なフレームワークを構築します。
論文参考訳（メタデータ） (2024-12-15T15:51:44Z)
One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。 OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文参考訳（メタデータ） (2024-11-25T12:11:05Z)
Large-scale Remote Sensing Image Target Recognition and Automatic Annotation [0.0]
LRSAAと呼ばれる大面積リモートセンシング画像におけるオブジェクト認識と自動ラベリングの手法を提案する。 YOLOv11とMobileNetV3-SSDオブジェクト検出アルゴリズムをアンサンブル学習により統合し,モデル性能を向上させる。
論文参考訳（メタデータ） (2024-11-12T13:57:13Z)
Redundancy-Aware Camera Selection for Indoor Scene Neural Rendering [54.468355408388675]
カメラの空間的多様性と画像の意味的変動の両方を取り入れた類似度行列を構築した。カメラ選択を最適化するために,多様性に基づくサンプリングアルゴリズムを適用した。 IndoorTrajという新しいデータセットも開発しています。仮想屋内環境で人間が捉えた、長くて複雑なカメラの動きが含まれています。
論文参考訳（メタデータ） (2024-09-11T08:36:49Z)
VICAN: Very Efficient Calibration Algorithm for Large Camera Networks [49.17165360280794]
ポースグラフ最適化手法を拡張する新しい手法を提案する。我々は、カメラを含む二部グラフ、オブジェクトの動的進化、各ステップにおけるカメラオブジェクト間の相対変換について考察する。我々のフレームワークは従来のPGOソルバとの互換性を維持しているが、その有効性はカスタマイズされた最適化方式の恩恵を受けている。
論文参考訳（メタデータ） (2024-03-25T17:47:03Z)
Enabling Cross-Camera Collaboration for Video Analytics on Distributed Smart Cameras [7.609628915907225]
本稿では、スマートカメラ上でのクロスカメラコラボレーションによる分散ビデオ分析システムArgusを紹介する。マルチカメラ・マルチターゲットトラッキングを主課題であるマルチカメラ・ビデオ分析とし、冗長で処理量の多いタスクを避ける新しい手法を開発した。 Argusは最先端と比較してオブジェクトの識別とエンドツーエンドのレイテンシを最大7.13倍と2.19倍に削減する。
論文参考訳（メタデータ） (2024-01-25T12:27:03Z)
Learning Online Policies for Person Tracking in Multi-View Environments [4.62316736194615]
MVSparseは、複数の同期カメラにまたがる協調的多人数追跡のための新しいフレームワークである。 MVSparseシステムは、エッジサーバベースのモデルと分散軽量強化学習(RL)エージェントを組み合わせた、慎重にオーケストレーションされたパイプラインで構成されている。私たちの貢献には、マルチカメラの歩行者追跡データセットの実証分析、マルチカメラの開発、マルチパーソナリティ検出パイプラインの開発、MVSparseの実装などが含まれています。
論文参考訳（メタデータ） (2023-12-26T02:57:11Z)
Learning Robust Multi-Scale Representation for Neural Radiance Fields from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文参考訳（メタデータ） (2023-11-08T08:18:23Z)
Homography Estimation in Complex Topological Scenes [6.023710971800605]
監視ビデオや画像は、交通分析から犯罪検出まで、幅広い用途に使用されている。外部カメラキャリブレーションデータは、ほとんどの分析アプリケーションにとって重要である。本稿では,任意のカメラ設定に関する事前知識を必要としない辞書ベースのアプローチを活用した自動カメラ校正プロセスを提案する。
論文参考訳（メタデータ） (2023-08-02T11:31:43Z)
Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization Using Satellite Image [91.29546868637911]
本稿では,地上画像と架空衛星地図とをマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。鍵となる考え方は、タスクをポーズ推定として定式化し、ニューラルネットベースの最適化によってそれを解くことである。標準自動運転車のローカライゼーションデータセットの実験により,提案手法の優位性が確認された。
論文参考訳（メタデータ） (2022-04-10T19:16:58Z)
Towards Unsupervised Fine-Tuning for Edge Video Analytics [1.1091582432763736]
自動モデル特殊化による余分な計算コストを伴わずにエッジモデルの精度を向上させる手法を提案する。その結果,本手法は,事前学習モデルの精度を平均21%向上できることがわかった。
論文参考訳（メタデータ） (2021-04-14T12:57:40Z)
Self-supervised Human Detection and Segmentation via Multi-view Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文参考訳（メタデータ） (2020-12-09T15:47:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。