論文の概要: Generative Memorize-Then-Recall framework for low bit-rate Surveillance
Video Compression
- arxiv url: http://arxiv.org/abs/1912.12847v3
- Date: Wed, 6 May 2020 14:28:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 02:34:57.704940
- Title: Generative Memorize-Then-Recall framework for low bit-rate Surveillance
Video Compression
- Title(参考訳): 低ビットレートサーベイランスビデオ圧縮のための生成記憶・再生フレームワーク
- Authors: Yaojun Wu, Tianyu He, Zhibo Chen
- Abstract要約: グループ・オブ・ピクチャー(GoP)のサーベイランス・ビデオ機能(メモリ)と各フレーム(キュー)のスケルトン
メモリは、GoPの内部に現れるオブジェクトの外観を記述するために、GoP内部のフレームを逐次、繰り返しのニューラルコーディングに入力することで得られる。
実験結果から,本手法は外観と骨格に基づく現実的な再構築を効果的に行うことが示唆された。
- 参考スコア(独自算出の注目度): 29.716388163447345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Applications of surveillance video have developed rapidly in recent years to
protect public safety and daily life, which often detect and recognize objects
in video sequences. Traditional coding frameworks remove temporal redundancy in
surveillance video by block-wise motion compensation, lacking the extraction
and utilization of inherent structure information. In this paper, we figure out
this issue by disentangling surveillance video into the structure of a global
spatio-temporal feature (memory) for Group of Picture (GoP) and skeleton for
each frame (clue). The memory is obtained by sequentially feeding frame inside
GoP into a recurrent neural network, describing appearance for objects that
appeared inside GoP. While the skeleton is calculated by a pose estimator, it
is regarded as a clue to recall memory. Furthermore, an attention mechanism is
introduced to obtain the relation between appearance and skeletons. Finally, we
employ generative adversarial network to reconstruct each frame. Experimental
results indicate that our method effectively generates realistic reconstruction
based on appearance and skeleton, which show much higher compression
performance on surveillance video compared with the latest video compression
standard H.265.
- Abstract(参考訳): 監視ビデオの応用は近年急速に発展し、公共の安全と日常生活を保護し、しばしばビデオシーケンス中の物体を検出して認識している。
従来のコーディングフレームワークは、ブロック的な動き補償によって監視ビデオの時間的冗長性を取り除き、固有の構造情報の抽出と利用を欠いている。
本稿では,グループ・オブ・ピクチャー(GoP)のグローバル時空間的特徴(メモリ)と,各フレーム(キュー)のスケルトン構造に監視映像を組み込むことにより,この問題を解消する。
メモリは、gop内部のフレームを繰り返しニューラルネットワークに順次送り込み、gopの内部に現れるオブジェクトの外観を記述することで得られる。
骨格はポーズ推定器によって計算されるが、記憶を思い出す手がかりと考えられている。
さらに,外観と骨格の関係を把握するために注意機構を導入する。
最後に,各フレームの再構成に生成対向ネットワークを用いる。
実験結果から,本手法は,最新のh.265に比べて監視映像の圧縮性能がはるかに高い外観と骨格に基づく現実的な再構成を効果的に生成できることが判明した。
関連論文リスト
- Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements [83.5820690348833]
外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
論文 参考訳(メタデータ) (2023-12-13T01:57:11Z) - Dual-Stream Knowledge-Preserving Hashing for Unsupervised Video
Retrieval [67.52910255064762]
時間層とハッシュ層を含む単純な二重ストリーム構造を設計する。
まず、時間層とハッシュ層を含む単純な二重ストリーム構造を設計する。
自己スーパービジョンから得られたセマンティック類似性知識の助けを借りて、ハッシュ層はセマンティック検索のための情報を取得することを学習する。
このようにして、モデルは自然に二進的なコードに絡み合ったセマンティクスを保存します。
論文 参考訳(メタデータ) (2023-10-12T03:21:12Z) - A new way of video compression via forward-referencing using deep
learning [0.0]
本稿では,すでに符号化されたフレームから人間のポーズをモデル化し,新しい映像符号化手法を提案する。
提案手法は,従来の後方参照フレームの限界を克服できると考えられる。
実験結果から,提案手法は最大2.83dBのPSNRゲインと25.93%の残留保存をハイモーションビデオシーケンスに適用できることがわかった。
論文 参考訳(メタデータ) (2022-08-13T16:19:11Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - Recurrent Video Restoration Transformer with Guided Deformable Attention [116.1684355529431]
本稿では,グローバルなリカレントフレームワーク内で,隣接するフレームを並列に処理するRVRTを提案する。
RVRTは、バランスの取れたモデルサイズ、メモリとランタイムをテストするベンチマークデータセット上で、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-05T10:36:09Z) - Recurrence-in-Recurrence Networks for Video Deblurring [58.49075799159015]
最先端のビデオデブロアリング法は、しばしばフレーム間の時間的依存性をモデル化するために、リカレントニューラルネットワークを採用する。
本稿では,短距離メモリの限界に対処する再帰型ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-12T11:58:13Z) - Unsupervised Video Summarization with a Convolutional Attentive
Adversarial Network [32.90753137435032]
我々は,教師なしの方法で深層要約器を構築するために,畳み込み型敵ネットワーク(CAAN)を提案する。
具体的には、ビデオのグローバルな表現を抽出する完全畳み込みシーケンスネットワークと、正規化された重要度スコアを出力する注目ベースのネットワークを用いる。
その結果,提案手法の他の非教師なし手法に対する優位性を示した。
論文 参考訳(メタデータ) (2021-05-24T07:24:39Z) - Reconstructive Sequence-Graph Network for Video Summarization [107.0328985865372]
キーショットベースのビデオ要約には,インナーショットとインショット間の依存関係の活用が不可欠だ。
フレームとショットをシーケンスおよびグラフ階層としてエンコードする再構成シーケンスグラフネットワーク(RSGN)を提案する。
リコンストラクタを開発し、サマリージェネレータに報奨を与えることにより、ジェネレータを教師なしの方法で最適化することができる。
論文 参考訳(メタデータ) (2021-05-10T01:47:55Z) - Frame-rate Up-conversion Detection Based on Convolutional Neural Network
for Learning Spatiotemporal Features [7.895528973776606]
本稿では、FRUCによる法医学的特徴をエンドツーエンドに学習するフレームレート変換検出ネットワーク(FCDNet)を提案する。
FCDNetは連続するフレームのスタックを入力として使用し、ネットワークブロックを使ってアーティファクトを効果的に学習して特徴を学習する。
論文 参考訳(メタデータ) (2021-03-25T08:47:46Z) - End-to-End Learning for Video Frame Compression with Self-Attention [25.23586503813838]
ビデオフレームを圧縮するエンド・ツー・エンドの学習システムを提案する。
我々のシステムはフレームの深い埋め込みを学習し、その差分を潜時空間でエンコードする。
実験の結果,提案システムは高い圧縮率と高客観的な視覚的品質を実現することがわかった。
論文 参考訳(メタデータ) (2020-04-20T12:11:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。