論文の概要: Multiscale Motion-Aware and Spatial-Temporal-Channel Contextual Coding
Network for Learned Video Compression
- arxiv url: http://arxiv.org/abs/2310.12733v1
- Date: Thu, 19 Oct 2023 13:32:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 15:16:27.885036
- Title: Multiscale Motion-Aware and Spatial-Temporal-Channel Contextual Coding
Network for Learned Video Compression
- Title(参考訳): 学習ビデオ圧縮のためのマルチスケールモーションアウェアと時空間チャネルコンテキスト符号化ネットワーク
- Authors: Yiming Wang, Qian Huang, Bin Tang, Huashan Sun, and Xing Li
- Abstract要約: 動画圧縮ネットワーク(MASTC-VC)を提案する。
提案するMASTC-VCは,3つの公開ベンチマークデータセット上での従来の最先端(SOTA)手法よりも優れている。
提案手法は,PSNRのH.265/HEVC(HM-16.20)に対して平均10.15%のBDレートを,MS-SSIMのH.266/VVC(VTM-13.2)に対して平均23.93%のBDレートを節約する。
- 参考スコア(独自算出の注目度): 24.228981098990726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, learned video compression has achieved exciting performance.
Following the traditional hybrid prediction coding framework, most learned
methods generally adopt the motion estimation motion compensation (MEMC) method
to remove inter-frame redundancy. However, inaccurate motion vector (MV)
usually lead to the distortion of reconstructed frame. In addition, most
approaches ignore the spatial and channel redundancy. To solve above problems,
we propose a motion-aware and spatial-temporal-channel contextual coding based
video compression network (MASTC-VC), which learns the latent representation
and uses variational autoencoders (VAEs) to capture the characteristics of
intra-frame pixels and inter-frame motion. Specifically, we design a multiscale
motion-aware module (MS-MAM) to estimate spatial-temporal-channel consistent
motion vector by utilizing the multiscale motion prediction information in a
coarse-to-fine way. On the top of it, we further propose a
spatial-temporal-channel contextual module (STCCM), which explores the
correlation of latent representation to reduce the bit consumption from
spatial, temporal and channel aspects respectively. Comprehensive experiments
show that our proposed MASTC-VC is surprior to previous state-of-the-art (SOTA)
methods on three public benchmark datasets. More specifically, our method
brings average 10.15\% BD-rate savings against H.265/HEVC (HM-16.20) in PSNR
metric and average 23.93\% BD-rate savings against H.266/VVC (VTM-13.2) in
MS-SSIM metric.
- Abstract(参考訳): 近年,学習ビデオ圧縮はエキサイティングなパフォーマンスを実現している。
従来のハイブリッド予測符号化フレームワークに従って、ほとんどの学習手法では、フレーム間の冗長性を除去するために動き推定運動補償(MEMC)法を採用している。
しかし、不正確な動きベクトル(mv)は通常、再構成されたフレームの歪みを引き起こす。
加えて、ほとんどのアプローチは空間的およびチャネル的冗長性を無視している。
そこで本研究では,フレーム内画素とフレーム間動作の特徴を抽出するために,遅延表現を学習し,可変オートエンコーダ(VAE)を用いる動き認識型時空間符号化型ビデオ圧縮ネットワーク(MASTC-VC)を提案する。
具体的には,マルチスケール動作予測情報を用いて空間-時間チャネル一貫した動きベクトルを推定するマルチスケールモーションアウェアモジュール(ms-mam)を設計する。
さらに,空間的,時間的,チャネル的なそれぞれの面からビット消費を減らすために,遅延表現の相関関係を探索する空間時空間文脈モジュール(STCCM)を提案する。
総合的な実験により,提案したMASTC-VCは,3つの公開ベンチマークデータセット上での先行技術(SOTA)手法よりも優れていることが示された。
具体的には、PSNRのH.265/HEVC(HM-16.20)に対して平均10.15\%のBDレートを、MS-SSIMのH.266/VVC(VTM-13.2)に対して平均23.93\%のBDレートを節約する。
関連論文リスト
- U-Motion: Learned Point Cloud Video Compression with U-Structured Motion Estimation [9.528405963599997]
ポイントクラウドビデオ(PCV)は、多くの新興アプリケーションを持つダイナミックシーンの汎用的な3D表現である。
本稿では,PCV形状と属性の両方を学習ベースで圧縮するU-Motionを提案する。
論文 参考訳(メタデータ) (2024-11-21T07:17:01Z) - Uniformly Accelerated Motion Model for Inter Prediction [38.34487653360328]
自然ビデオでは、通常、変動速度を持つ複数の移動物体が存在し、その結果、コンパクトに表現することが難しい複雑な運動場が生じる。
Versatile Video Coding (VVC) では、既存のインター予測手法は連続するフレーム間の均一な速度運動を仮定する。
本研究では,動画フレーム間の移動物体の運動関連要素(速度,加速度)を利用する一様加速度運動モデル(UAMM)を提案する。
論文 参考訳(メタデータ) (2024-07-16T09:46:29Z) - Object Segmentation-Assisted Inter Prediction for Versatile Video Coding [53.91821712591901]
本稿では,参照フレーム内のオブジェクトをいくつかの高度な技術でセグメント化するオブジェクトセグメンテーション支援インター予測手法を提案する。
適切な指示により、オブジェクトセグメンテーションマスクは、参照フレームから現在のフレームに、異なる領域の任意の形のパーティションとして変換される。
提案手法は, 最大1.98%, 1.14%, 0.79%, 平均0.82%, 0.49%, 0.37%のBDレート低下が得られた。
論文 参考訳(メタデータ) (2024-03-18T11:48:20Z) - IBVC: Interpolation-driven B-frame Video Compression [68.18440522300536]
Bフレームビデオ圧縮は、双方向動作推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。
従来の学習アプローチでは、しばしば双方向の光フロー推定に依存するニューラルネットワークのPフレームコーデックをBフレームに直接拡張する。
これらの問題に対処するために,IBVC (Interpolation-B-frame Video Compression) という単純な構造を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:45:51Z) - Spatial-Temporal Transformer based Video Compression Framework [44.723459144708286]
本稿では,STT-VC(Spatial-Temporal Transformer based Video Compression)フレームワークを提案する。
動作推定と補償のためのオフセット推定のためのUformerベースのオフセット推定を備えたRelaxed Deformable Transformer (RDT)と、予測改善のためのマルチ参照フレームに基づくMulti-Granularity Prediction (MGP)モジュールと、時間空間的継手残留圧縮を効率的に行うSpatial Feature Distribution prior based Transformer (SFD-T)を含む。
実験の結果,VTMよりも13.5%のBD-Rateを節約できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T09:23:13Z) - Optical-Flow-Reuse-Based Bidirectional Recurrent Network for Space-Time
Video Super-Resolution [52.899234731501075]
時空間ビデオ超解像(ST-VSR)は、与えられたビデオの空間解像度とフレームレートを同時に増加させる。
既存の手法は通常、近隣の幅広いフレームからの情報を効率的に活用する方法の難しさに悩まされる。
本稿では,隣接するフレーム間の知識を活用するために,ConvLSTMの代わりに粗大な双方向リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T15:21:30Z) - Self-Supervised Learning of Perceptually Optimized Block Motion
Estimates for Video Compression [50.48504867843605]
多段階畳み込みニューラルネットワークを用いた探索自由ブロック運動推定フレームワークを提案する。
動作補償フレームの知覚品質を最適化するために,マルチスケール構造類似度(MS-SSIM)損失関数をデプロイする。
論文 参考訳(メタデータ) (2021-10-05T03:38:43Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - Temporal Modulation Network for Controllable Space-Time Video
Super-Resolution [66.06549492893947]
宇宙時間のビデオ超解像度は、低解像度と低フレームレートのビデオの空間的および時間的解像度を高めることを目指しています。
変形性畳み込み法は、有望なSTVSR性能を達成したが、トレーニング段階で事前に定義された中間フレームのみを推測することができた。
本稿では,任意の中間フレームを高精度な高分解能再構成で補間する時間変調ネットワーク(tmnet)を提案する。
論文 参考訳(メタデータ) (2021-04-21T17:10:53Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Neural Video Coding using Multiscale Motion Compensation and
Spatiotemporal Context Model [45.46660511313426]
エンド・ツー・エンドのディープ・ニューラル・ビデオ・コーディング・フレームワーク(NVC)を提案する。
フレーム内画素、フレーム間運動、フレーム間補償残差の相関を利用するために、共同空間および時間的事前集約(PA)を備えた可変オートエンコーダ(VAE)を使用する。
NVCは低遅延因果条件で評価され、H.265/HEVC、H.264/AVC、その他の学習ビデオ圧縮法と比較される。
論文 参考訳(メタデータ) (2020-07-09T06:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。