論文の概要: FVC: A New Framework towards Deep Video Compression in Feature Space
- arxiv url: http://arxiv.org/abs/2105.09600v1
- Date: Thu, 20 May 2021 08:55:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 13:27:46.247915
- Title: FVC: A New Framework towards Deep Video Compression in Feature Space
- Title(参考訳): FVC: 機能空間におけるディープビデオ圧縮のための新しいフレームワーク
- Authors: Zhihao Hu, Guo Lu, Dong Xu
- Abstract要約: 特徴空間におけるすべての主要な操作(動き推定、動き圧縮、動き補償、残差圧縮)を実行することで特徴空間ビデオ符号化ネットワーク(FVC)を提案する。
提案フレームワークは,HEVC,UVG,VTL,MCL-JCVを含む4つのベンチマークデータセットに対して,最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 21.410266039564803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning based video compression attracts increasing attention in the past
few years. The previous hybrid coding approaches rely on pixel space operations
to reduce spatial and temporal redundancy, which may suffer from inaccurate
motion estimation or less effective motion compensation. In this work, we
propose a feature-space video coding network (FVC) by performing all major
operations (i.e., motion estimation, motion compression, motion compensation
and residual compression) in the feature space. Specifically, in the proposed
deformable compensation module, we first apply motion estimation in the feature
space to produce motion information (i.e., the offset maps), which will be
compressed by using the auto-encoder style network. Then we perform motion
compensation by using deformable convolution and generate the predicted
feature. After that, we compress the residual feature between the feature from
the current frame and the predicted feature from our deformable compensation
module. For better frame reconstruction, the reference features from multiple
previous reconstructed frames are also fused by using the non-local attention
mechanism in the multi-frame feature fusion module. Comprehensive experimental
results demonstrate that the proposed framework achieves the state-of-the-art
performance on four benchmark datasets including HEVC, UVG, VTL and MCL-JCV.
- Abstract(参考訳): 学習に基づくビデオ圧縮は、ここ数年で注目を集めている。
従来のハイブリッド符号化手法は、不正確な動き推定やより効果的な動き補償に苦しむ空間的および時間的冗長性を低減するためにピクセル空間演算に依存する。
本稿では,特徴空間における全ての主要な操作(動き推定,動き圧縮,動き補償,残留圧縮など)を行うことにより,特徴空間映像符号化ネットワーク(fvc)を提案する。
具体的には,提案した変形可能補償モジュールにおいて,まず特徴空間に動き推定を適用し,自動エンコーダ方式のネットワークを用いて圧縮される動き情報(オフセットマップ)を生成する。
次に変形可能な畳み込みを用いて動作補償を行い、予測特徴を生成する。
その後、現在のフレームからの機能と、変形可能な補償モジュールから予測された機能の間の残余フィーチャを圧縮します。
より優れたフレーム再構築のために、複数の以前の再構成フレームからの参照特徴もマルチフレーム特徴融合モジュールにおける非局所的注意機構を用いて融合する。
実験結果から,HEVC,UVG,VTL,MCL-JCVの4つのベンチマークデータセットにおいて,提案フレームワークが最先端の性能を実現することを示す。
関連論文リスト
- U-Motion: Learned Point Cloud Video Compression with U-Structured Motion Estimation [9.528405963599997]
ポイントクラウドビデオ(PCV)は、多くの新興アプリケーションを持つダイナミックシーンの汎用的な3D表現である。
本稿では,PCV形状と属性の両方を学習ベースで圧縮するU-Motionを提案する。
論文 参考訳(メタデータ) (2024-11-21T07:17:01Z) - Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - IBVC: Interpolation-driven B-frame Video Compression [68.18440522300536]
Bフレームビデオ圧縮は、双方向動作推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。
従来の学習アプローチでは、しばしば双方向の光フロー推定に依存するニューラルネットワークのPフレームコーデックをBフレームに直接拡張する。
これらの問題に対処するために,IBVC (Interpolation-B-frame Video Compression) という単純な構造を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:45:51Z) - Spatial-Temporal Transformer based Video Compression Framework [44.723459144708286]
本稿では,STT-VC(Spatial-Temporal Transformer based Video Compression)フレームワークを提案する。
動作推定と補償のためのオフセット推定のためのUformerベースのオフセット推定を備えたRelaxed Deformable Transformer (RDT)と、予測改善のためのマルチ参照フレームに基づくMulti-Granularity Prediction (MGP)モジュールと、時間空間的継手残留圧縮を効率的に行うSpatial Feature Distribution prior based Transformer (SFD-T)を含む。
実験の結果,VTMよりも13.5%のBD-Rateを節約できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T09:23:13Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - Decomposition, Compression, and Synthesis (DCS)-based Video Coding: A
Neural Exploration via Resolution-Adaptive Learning [30.54722074562783]
入力映像をそれぞれの空間テクスチャフレーム(STF)に分解する。
次に,一般的なビデオコーダを用いて圧縮する。
最後に,デコードされたSTFとTMFをネイティブ入力と同じ解像度で合成し,高品質なビデオ再構成を実現する。
論文 参考訳(メタデータ) (2020-12-01T17:23:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。