論文の概要: Few-shot Semantic Encoding and Decoding for Video Surveillance
- arxiv url: http://arxiv.org/abs/2505.07381v1
- Date: Mon, 12 May 2025 09:27:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.335237
- Title: Few-shot Semantic Encoding and Decoding for Video Surveillance
- Title(参考訳): ビデオサーベイランスのためのセマンティックエンコーディングとデコード
- Authors: Baoping Cheng, Yukun Zhang, Liming Wang, Xiaoyan Xie, Tao Fu, Dongkun Wang, Xiaoming Tao,
- Abstract要約: 既存のセマンティックデコーディング手法では、シーンごとにニューラルネットワークをトレーニングするために多くのサンプルが必要である。
本研究では,監視ビデオのセマンティックエンコーディングと復号化手法を提案する。
提案手法は,監視シーン毎に少数のトレーニングサンプルのみを必要とする,新しいセマンティックエンコーディングとデコード手法を提供する。
- 参考スコア(独自算出の注目度): 21.903192316918652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the continuous increase in the number and resolution of video surveillance cameras, the burden of transmitting and storing surveillance video is growing. Traditional communication methods based on Shannon's theory are facing optimization bottlenecks. Semantic communication, as an emerging communication method, is expected to break through this bottleneck and reduce the storage and transmission consumption of video. Existing semantic decoding methods often require many samples to train the neural network for each scene, which is time-consuming and labor-intensive. In this study, a semantic encoding and decoding method for surveillance video is proposed. First, the sketch was extracted as semantic information, and a sketch compression method was proposed to reduce the bit rate of semantic information. Then, an image translation network was proposed to translate the sketch into a video frame with a reference frame. Finally, a few-shot sketch decoding network was proposed to reconstruct video from sketch. Experimental results showed that the proposed method achieved significantly better video reconstruction performance than baseline methods. The sketch compression method could effectively reduce the storage and transmission consumption of semantic information with little compromise on video quality. The proposed method provides a novel semantic encoding and decoding method that only needs a few training samples for each surveillance scene, thus improving the practicality of the semantic communication system.
- Abstract(参考訳): ビデオ監視カメラの数と解像度の連続的な増加に伴い、監視ビデオの送信と保存の負担が高まっている。
シャノンの理論に基づく従来の通信手法は最適化のボトルネックに直面している。
セマンティック通信は,このボトルネックを突破し,ビデオの保存・送信消費を減少させることが期待されている。
既存のセマンティックデコーディング手法では、各シーンのニューラルネットワークをトレーニングするために多くのサンプルを必要とすることが多い。
本研究では,監視ビデオのセマンティックエンコーディングと復号化手法を提案する。
まず、スケッチを意味情報として抽出し、意味情報のビットレートを低減するためにスケッチ圧縮法を提案する。
そして、スケッチを参照フレーム付きビデオフレームに変換するために、画像翻訳ネットワークを提案する。
最後に、スケッチから映像を再構成するために、数発のスケッチデコードネットワークが提案された。
実験の結果,提案手法はベースライン法よりも映像再構成性能が有意に向上した。
スケッチ圧縮法は,映像品質を損なうことなく,意味情報の保存と送信を効果的に削減することができる。
提案手法は,各監視シーンに少数のトレーニングサンプルしか必要とせず,セマンティック・コミュニケーション・システムの実現性が向上する新しいセマンティック・エンコーディング・デコーディング手法を提供する。
関連論文リスト
- WVSC: Wireless Video Semantic Communication with Multi-frame Compensation [56.63352157833874]
既存の無線ビデオ伝送方式は画素レベルで直接映像符号化を行う。
本稿では,WVSCと略される無線ビデオセマンティック通信フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-27T06:27:15Z) - CoordFlow: Coordinate Flow for Pixel-wise Neural Video Representation [11.364753833652182]
Implicit Neural Representation (INR)は、従来の変換ベースの手法に代わる有望な代替手段である。
ビデオ圧縮のための新しいピクセルワイドINRであるCoordFlowを紹介する。
他のピクセルワイドINRと比較すると、最先端のフレームワイド技術と比較すると、オンパー性能が向上する。
論文 参考訳(メタデータ) (2025-01-01T22:58:06Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - RaP: Redundancy-aware Video-language Pre-training for Text-Video
Retrieval [61.77760317554826]
冗長性を考慮したビデオ言語事前学習を提案する。
我々は,ビデオパッチとテキストトークンの冗長性の測定を,クロスモーダルな最小相似性を計算することによって設計する。
提案手法はMSRVTT, MSVD, DiDeMo, LSMDCの4つのベンチマークデータセットを用いて評価した。
論文 参考訳(メタデータ) (2022-10-13T10:11:41Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Multi-Density Attention Network for Loop Filtering in Video Compression [9.322800480045336]
ビデオ圧縮におけるループフィルタリングのためのオンラインスケーリングに基づく多密度注意ネットワークを提案する。
実験の結果、同じビデオ品質で10.18%のビットレート削減が最新のVVC(Versatile Video Coding)規格で達成できることが示された。
論文 参考訳(メタデータ) (2021-04-08T05:46:38Z) - Ultra-low bitrate video conferencing using deep image animation [7.263312285502382]
ビデオ会議のための超低速ビデオ圧縮のための新しい深層学習手法を提案する。
我々はディープニューラルネットワークを用いて、動き情報をキーポイント変位として符号化し、デコーダ側で映像信号を再構成する。
論文 参考訳(メタデータ) (2020-12-01T09:06:34Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。