論文の概要: Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition
- arxiv url: http://arxiv.org/abs/2305.12796v1
- Date: Mon, 22 May 2023 07:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 17:40:29.525450
- Title: Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition
- Title(参考訳): リアルタイムビデオ認識のための時空間アテンションに基づくセマンティック圧縮
- Authors: Nan Li, Mehdi Bennis, Alexandros Iosifidis and Qi Zhang
- Abstract要約: 本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。
我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。
実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
- 参考スコア(独自算出の注目度): 117.98023585449808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the computational offloading of video action recognition
in edge computing. To achieve effective semantic information extraction and
compression, following semantic communication we propose a novel spatiotemporal
attention-based autoencoder (STAE) architecture, including a frame attention
module and a spatial attention module, to evaluate the importance of frames and
pixels in each frame. Additionally, we use entropy encoding to remove
statistical redundancy in the compressed data to further reduce communication
overhead. At the receiver, we develop a lightweight decoder that leverages a
3D-2D CNN combined architecture to reconstruct missing information by
simultaneously learning temporal and spatial information from the received data
to improve accuracy. To fasten convergence, we use a step-by-step approach to
train the resulting STAE-based vision transformer (ViT_STAE) models.
Experimental results show that ViT_STAE can compress the video dataset HMDB51
by 104x with only 5% accuracy loss, outperforming the state-of-the-art baseline
DeepISC. The proposed ViT_STAE achieves faster inference and higher accuracy
than the DeepISC-based ViT model under time-varying wireless channel, which
highlights the effectiveness of STAE in guaranteeing higher accuracy under time
constraints.
- Abstract(参考訳): 本稿では,エッジコンピューティングにおける映像動作認識の計算オフロードについて検討する。
意味情報抽出と圧縮を効果的に行うために,我々は,フレームアテンションモジュールと空間アテンションモジュールを含む時空間アテンションベースオートエンコーダ(stae)アーキテクチャを提案し,各フレームにおけるフレームとピクセルの重要性を評価する。
さらに,エントロピー符号化を用いて圧縮データの統計的冗長性を除去し,通信オーバーヘッドをさらに低減した。
受信機では,3d-2d cnn合成アーキテクチャを利用して,受信データから時間的および空間的情報を同時学習することにより,行方不明情報を再構成し,精度を向上させる軽量デコーダを開発した。
収束を早めるために、ステップバイステップでSTAEベースの視覚変換器(ViT_STAE)モデルを訓練する。
実験結果から,VT_STAE はビデオデータセット HMDB51 を 104 倍の精度で圧縮できることがわかった。
提案したVT_STAEは,時間制約下での精度を保証するためのSTAEの有効性を強調した,DeepISCベースのVTモデルよりも高速な推論と精度を実現する。
関連論文リスト
- SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Task-Oriented Communication for Edge Video Analytics [11.03999024164301]
本稿では,エッジビデオ分析のためのタスク指向通信フレームワークを提案する。
複数のデバイスが視覚センサデータを収集し、その情報機能をエッジサーバに送信して処理する。
提案手法は,映像データのタスク関連情報を効果的に符号化し,既存の手法よりも高いレート性能のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-11-25T12:09:12Z) - Attention-based Feature Compression for CNN Inference Offloading in Edge
Computing [93.67044879636093]
本稿では,デバイスエッジ共振器におけるCNN推論の計算負荷について検討する。
エンドデバイスにおける効率的な特徴抽出のための新しいオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
実験の結果、AECNNは中間データを約4%の精度で256倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-24T18:10:01Z) - Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文 参考訳(メタデータ) (2022-08-01T15:56:19Z) - STIP: A SpatioTemporal Information-Preserving and Perception-Augmented
Model for High-Resolution Video Prediction [78.129039340528]
本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。
提案モデルは,特徴抽出と状態遷移中の映像の時間的情報を保存することを目的としている。
実験結果から,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることが示唆された。
論文 参考訳(メタデータ) (2022-06-09T09:49:04Z) - ACDnet: An action detection network for real-time edge computing based
on flow-guided feature approximation and memory aggregation [8.013823319651395]
ACDnetは、リアルタイムエッジコンピューティングをターゲットとしたコンパクトなアクション検出ネットワークです。
連続するビデオフレーム間の時間的コヒーレンスを利用してCNNの特徴を近似する。
リアルタイム(75FPS)よりはるかに高い精度で検出できる。
論文 参考訳(メタデータ) (2021-02-26T14:06:31Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。