論文の概要: End-to-end Optimized Video Compression with MV-Residual Prediction
- arxiv url: http://arxiv.org/abs/2005.12945v1
- Date: Tue, 26 May 2020 18:09:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 00:41:40.816778
- Title: End-to-end Optimized Video Compression with MV-Residual Prediction
- Title(参考訳): MV残差予測によるエンドツーエンド最適化ビデオ圧縮
- Authors: XiangJi Wu, Ziwen Zhang, Jie Feng, Lei Zhou, Junmin Wu
- Abstract要約: Pフレーム圧縮のためのエンドツーエンドのトレーニング可能なフレームワークを提案する。
関節運動ベクトル(MV)と残差予測ネットワーク(MV-Residual)は,動作表現のアンサンブル特徴を抽出するために設計されている。
提案するフレームワークは,Pフレーム圧縮競争において最高のMS-SSIMを生成することができる。
- 参考スコア(独自算出の注目度): 13.627925888710426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an end-to-end trainable framework for P-frame compression in this
paper. A joint motion vector (MV) and residual prediction network MV-Residual
is designed to extract the ensembled features of motion representations and
residual information by treating the two successive frames as inputs. The prior
probability of the latent representations is modeled by a hyperprior
autoencoder and trained jointly with the MV-Residual network. Specially, the
spatially-displaced convolution is applied for video frame prediction, in which
a motion kernel for each pixel is learned to generate predicted pixel by
applying the kernel at a displaced location in the source image. Finally, novel
rate allocation and post-processing strategies are used to produce the final
compressed bits, considering the bits constraint of the challenge. The
experimental results on validation set show that the proposed optimized
framework can generate the highest MS-SSIM for P-frame compression competition.
- Abstract(参考訳): 本稿では,Pフレーム圧縮のためのエンドツーエンドのトレーニング可能なフレームワークを提案する。
連続した2つのフレームを入力として扱うことにより、関節運動ベクトル(MV)と残差予測ネットワーク(MV-Residual)を動作表現と残差情報のアンサンブル特徴を抽出する。
潜在表現の事前確率はハイパープリオオートエンコーダによってモデル化され、mv-residual networkと共同で訓練される。
特に、各画素のモーションカーネルを学習した映像フレーム予測に空間的に変位した畳み込みを適用し、ソース画像内の変位位置にカーネルを適用して予測画素を生成する。
最後に、チャレンジのビット制約を考慮した最終圧縮ビットを生成するために、新しいレート割当と後処理戦略を用いる。
実験結果から,Pフレーム圧縮競争において最高のMS-SSIMを生成することができることがわかった。
関連論文リスト
- Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Spatial-Temporal Transformer based Video Compression Framework [44.723459144708286]
本稿では,STT-VC(Spatial-Temporal Transformer based Video Compression)フレームワークを提案する。
動作推定と補償のためのオフセット推定のためのUformerベースのオフセット推定を備えたRelaxed Deformable Transformer (RDT)と、予測改善のためのマルチ参照フレームに基づくMulti-Granularity Prediction (MGP)モジュールと、時間空間的継手残留圧縮を効率的に行うSpatial Feature Distribution prior based Transformer (SFD-T)を含む。
実験の結果,VTMよりも13.5%のBD-Rateを節約できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T09:23:13Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - MMVC: Learned Multi-Mode Video Compression with Block-based Prediction
Mode Selection and Density-Adaptive Entropy Coding [21.147001610347832]
動作パターンに適応した特徴領域予測のための最適モードを選択するマルチモードビデオ圧縮フレームワークを提案する。
エントロピー符号化では、高密度かつスパースな後量子化残差ブロックを考慮し、任意のラン長符号化を適用して圧縮率を向上させる。
現状の映像圧縮方式や標準コーデックと比較すると,PSNRとMS-SSIMで測定したより優れた,あるいは競争的な結果が得られる。
論文 参考訳(メタデータ) (2023-04-05T07:37:48Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - Self-Supervised Learning of Perceptually Optimized Block Motion
Estimates for Video Compression [50.48504867843605]
多段階畳み込みニューラルネットワークを用いた探索自由ブロック運動推定フレームワークを提案する。
動作補償フレームの知覚品質を最適化するために,マルチスケール構造類似度(MS-SSIM)損失関数をデプロイする。
論文 参考訳(メタデータ) (2021-10-05T03:38:43Z) - FVC: A New Framework towards Deep Video Compression in Feature Space [21.410266039564803]
特徴空間におけるすべての主要な操作(動き推定、動き圧縮、動き補償、残差圧縮)を実行することで特徴空間ビデオ符号化ネットワーク(FVC)を提案する。
提案フレームワークは,HEVC,UVG,VTL,MCL-JCVを含む4つのベンチマークデータセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-05-20T08:55:32Z) - End-to-End Rate-Distortion Optimization for Bi-Directional Learned Video
Compression [10.404162481860634]
学習されたビデオ圧縮は、すべての非線形モジュールのエンドツーエンドの速度歪みを最適化する訓練を可能にする。
本稿では,画像の固定サイズ群に対するコスト関数の蓄積による階層的,双方向な動きのエンドツーエンド最適化を初めて提案する。
論文 参考訳(メタデータ) (2020-08-11T22:50:06Z) - Learning for Video Compression with Recurrent Auto-Encoder and Recurrent
Probability Model [164.7489982837475]
本稿では、リカレントオートエンコーダ(RAE)とリカレント確率モデル(RPM)を用いたリカレントラーニングビデオ圧縮(RLVC)手法を提案する。
RAEは、ビデオフレーム間の時間的相関を利用するために、エンコーダとデコーダの両方で繰り返しセルを使用する。
提案手法は,PSNRとMS-SSIMの両方の観点から,最先端の学習ビデオ圧縮性能を実現する。
論文 参考訳(メタデータ) (2020-06-24T08:46:33Z) - M-LVC: Multiple Frames Prediction for Learned Video Compression [111.50760486258993]
低レイテンシシナリオのためのエンドツーエンドの学習ビデオ圧縮方式を提案する。
提案方式では, 移動ベクトル(MV)場を現在のフレームと前のフレームの間で計算する。
実験の結果,提案手法は,低遅延モードにおける既存の学習ビデオ圧縮法よりも優れていた。
論文 参考訳(メタデータ) (2020-04-21T20:42:02Z) - End-to-End Learning for Video Frame Compression with Self-Attention [25.23586503813838]
ビデオフレームを圧縮するエンド・ツー・エンドの学習システムを提案する。
我々のシステムはフレームの深い埋め込みを学習し、その差分を潜時空間でエンコードする。
実験の結果,提案システムは高い圧縮率と高客観的な視覚的品質を実現することがわかった。
論文 参考訳(メタデータ) (2020-04-20T12:11:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。