Fugu-MT 論文翻訳(概要): Edge Computing Enabled Real-Time Video Analysis via Adaptive Spatial-Temporal Semantic Filtering

論文の概要: Edge Computing Enabled Real-Time Video Analysis via Adaptive Spatial-Temporal Semantic Filtering

arxiv url: http://arxiv.org/abs/2402.18927v1
Date: Thu, 29 Feb 2024 07:42:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 15:44:16.154969
Title: Edge Computing Enabled Real-Time Video Analysis via Adaptive Spatial-Temporal Semantic Filtering
Title（参考訳）: 適応的空間-時間意味フィルタリングによるエッジコンピューティングによるリアルタイム映像解析
Authors: Xiang Chen, Wenjie Zhu, Jiayuan Chen, Tong Zhang, Changyan Yi, Jun Cai
Abstract要約: 本稿では,インテリジェント・ビジュアル・デバイスのためのエッジ・コンピューティングによるリアルタイム映像解析システムを提案する。提案システムは,追跡支援対象検出モジュール(TAODM)と興味あるモジュールの領域(ROIM)から構成される。 TAODMは、トラッキングアルゴリズムで各ビデオフレームを局所的に処理するか、オブジェクト検出モデルにより推論されたエッジサーバにオフロードするか、オフロード決定を適応的に決定する。
参考スコア（独自算出の注目度）: 18.55091203660391
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper proposes a novel edge computing enabled real-time video analysis system for intelligent visual devices. The proposed system consists of a tracking-assisted object detection module (TAODM) and a region of interesting module (ROIM). TAODM adaptively determines the offloading decision to process each video frame locally with a tracking algorithm or to offload it to the edge server inferred by an object detection model. ROIM determines each offloading frame's resolution and detection model configuration to ensure that the analysis results can return in time. TAODM and ROIM interact jointly to filter the repetitive spatial-temporal semantic information to maximize the processing rate while ensuring high video analysis accuracy. Unlike most existing works, this paper investigates the real-time video analysis systems where the intelligent visual device connects to the edge server through a wireless network with fluctuating network conditions. We decompose the real-time video analysis problem into the offloading decision and configurations selection sub-problems. To solve these two sub-problems, we introduce a double deep Q network (DDQN) based offloading approach and a contextual multi-armed bandit (CMAB) based adaptive configurations selection approach, respectively. A DDQN-CMAB reinforcement learning (DCRL) training framework is further developed to integrate these two approaches to improve the overall video analyzing performance. Extensive simulations are conducted to evaluate the performance of the proposed solution, and demonstrate its superiority over counterparts.
Abstract（参考訳）: 本稿では,インテリジェントなビジュアルデバイスのための,新しいエッジコンピューティング可能なリアルタイム映像解析システムを提案する。提案システムは,追跡支援対象検出モジュール(TAODM)と興味深いモジュールの領域(ROIM)から構成される。 TAODMは、トラッキングアルゴリズムで各ビデオフレームを局所的に処理するか、オブジェクト検出モデルにより推論されたエッジサーバにオフロードするか、オフロード決定を適応的に決定する。 ROIMは各オフロードフレームの解像度と検出モデルの設定を決定し、分析結果が時間内に返されるようにします。 TAODMとROIMは共同で対話し、繰り返しの時空間意味情報をフィルタリングし、高いビデオ解析精度を確保しながら処理速度を最大化する。既存のほとんどの作品とは異なり、知的視覚装置が無線ネットワークを介してエッジサーバと接続し、ネットワーク状態が変動するリアルタイムビデオ分析システムについて検討する。我々は,リアルタイムビデオ解析問題をオフロード決定と構成選択サブ問題に分解する。これら2つのサブプロブレムを解決するために,Double Deep Q Network(DDQN)ベースのオフロード手法と,CMABベースの適応的構成選択手法を導入する。 DDQN-CMAB強化学習(DCRL)トレーニングフレームワークをさらに発展させ、これらの2つのアプローチを統合し、全体的なビデオ解析性能を改善する。提案手法の性能評価と,その優位性を示すため,広範囲なシミュレーションを行った。

関連論文リスト

Towards Efficient Real-Time Video Motion Transfer via Generative Time Series Modeling [7.3949576464066]
本研究では,モーショントランスファー対応ビデオアプリケーションにおいて,帯域幅を大幅に最適化する深層学習フレームワークを提案する。複雑な動きを効果的に捉えるために,キーポイントを検出することで動的物体を符号化する第1次運動モデル(FOMM)を用いる。ビデオアニメーションと再構成のために, 平均絶対誤差, 共同埋め込み予測アーキテクチャ埋め込み距離, 構造類似度指数, 平均ペアワイズ変位の3つの指標を用いて, 実験結果を検証した。
論文参考訳（メタデータ） (2025-04-07T22:21:54Z)
Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文参考訳（メタデータ） (2025-01-27T10:57:24Z)
RE-POSE: Synergizing Reinforcement Learning-Based Partitioning and Offloading for Edge Object Detection [3.2805151494259563]
エッジデバイス上でのリアルタイムオブジェクト検出は、その限られた計算リソースと、ディープニューラルネットワーク(DNN)ベースの検出モデルの高要求により、大きな課題を呈している。本稿では,リソース制約のあるエッジ環境における精度-遅延トレードオフを最適化するフレームワークであるRE-POSEを紹介する。
論文参考訳（メタデータ） (2025-01-16T10:56:45Z)
Deep Learning and Hybrid Approaches for Dynamic Scene Analysis, Object Detection and Motion Tracking [0.0]
本研究の目的は,活動の検出に基づいて映像を小さなクリップに分割する,堅牢な映像監視システムを開発することである。例えば、CCTVの映像を使って、人や泥棒の外観のような主要なイベントのみを記録し、ストレージを最適化し、デジタル検索がより簡単になる。
論文参考訳（メタデータ） (2024-12-05T07:44:40Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
Task-Oriented Communication for Edge Video Analytics [11.03999024164301]
本稿では,エッジビデオ分析のためのタスク指向通信フレームワークを提案する。複数のデバイスが視覚センサデータを収集し、その情報機能をエッジサーバに送信して処理する。提案手法は,映像データのタスク関連情報を効果的に符号化し,既存の手法よりも高いレート性能のトレードオフを実現する。
論文参考訳（メタデータ） (2022-11-25T12:09:12Z)
Implicit Motion-Compensated Network for Unsupervised Video Object Segmentation [25.41427065435164]
教師なしビデオオブジェクトセグメンテーション(UVOS)は、ビデオシーケンスの背景から一次前景オブジェクトを自動的に分離することを目的としている。既存のUVOS手法では、視覚的に類似した環境(外観ベース)がある場合や、動的背景と不正確な流れ(フローベース)のために予測品質の劣化に悩まされている場合、堅牢性を欠いている。本稿では,隣接するフレームから特徴レベルにおける現在のフレームへの一致した動き情報と相補的キュー(textiti.e.$, appearance and motion)を組み合わせた暗黙的動き補償ネットワーク(IMCNet)を提案する。
論文参考訳（メタデータ） (2022-04-06T13:03:59Z)
Video Salient Object Detection via Contrastive Features and Attention Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文参考訳（メタデータ） (2021-11-03T17:40:32Z)
Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文参考訳（メタデータ） (2021-08-06T14:50:50Z)
Parallel Detection for Efficient Video Analytics at the Edge [5.547133811014004]
ディープニューラルネットワーク(DNN)訓練対象検出器は、エッジでのリアルタイムビデオ分析のためにミッションクリティカルシステムに広くデプロイされている。ミッションクリティカルエッジサービスにおける一般的なパフォーマンス要件は、エッジデバイス上でのオンラインオブジェクト検出のほぼリアルタイムレイテンシである。本稿では,エッジシステムにおける高速物体検出のためのマルチモデルマルチデバイス検出並列性を利用して,これらの問題に対処する。
論文参考訳（メタデータ） (2021-07-27T02:50:46Z)
A Reinforcement-Learning-Based Energy-Efficient Framework for Multi-Task Video Analytics Pipeline [16.72264118199915]
ビデオ分析パイプラインは、高いデータレートと複雑な推論アルゴリズムに依存するため、エネルギー集約的である。マルチタスクビデオ解析パイプラインのエネルギー使用を最小限に抑える適応解像度最適化フレームワークを提案する。私たちのフレームワークは、YouTube-VISデータセットで同様の精度の全てのベースラインメソッドを大幅に上回りました。
論文参考訳（メタデータ） (2021-04-09T15:44:06Z)
ApproxDet: Content and Contention-Aware Approximate Object Detection for Mobiles [19.41234144545467]
本稿では,モバイル機器用適応型ビデオオブジェクト検出フレームワークであるApproxDetを紹介する。大規模なベンチマークビデオデータセット上でApproxDetを評価し,AdaScaleやYOLOv3と比較した。 ApproxDetは、幅広いコンテントやコンテンツの特徴に適応し、すべてのベースラインを誇張することができる。
論文参考訳（メタデータ） (2020-10-21T04:11:05Z)
A Deep-Unfolded Reference-Based RPCA Network For Video Foreground-Background Separation [86.35434065681925]
本稿では,ロバスト主成分分析(RPCA)問題に対するディープアンフォールディングに基づくネットワーク設計を提案する。既存の設計とは異なり,本手法は連続するビデオフレームのスパース表現間の時間的相関をモデル化することに焦点を当てている。移動MNISTデータセットを用いた実験により、提案したネットワークは、ビデオフォアグラウンドとバックグラウンドの分離作業において、最近提案された最先端のRPCAネットワークより優れていることが示された。
論文参考訳（メタデータ） (2020-10-02T11:40:09Z)
Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文参考訳（メタデータ） (2020-07-28T07:34:30Z)
Fast Video Object Segmentation With Temporal Aggregation Network and Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文参考訳（メタデータ） (2020-07-11T05:44:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。