論文の概要: Learned Video Compression with Residual Prediction and Loop Filter
- arxiv url: http://arxiv.org/abs/2108.08551v1
- Date: Thu, 19 Aug 2021 08:31:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-20 14:14:33.682230
- Title: Learned Video Compression with Residual Prediction and Loop Filter
- Title(参考訳): 残差予測とループフィルタを用いた学習ビデオ圧縮
- Authors: Chao Liu, Heming Sun, Jiro Katto, Xiaoyang Zeng, Yibo Fan
- Abstract要約: 残差予測ネットワーク(RP-Net)と機能支援ループフィルタ(LF-Net)を用いた学習ビデオを提案する。
RP-Netでは、過去の多重フレームの残余を利用して、現在のフレーム残余の冗長性をさらに排除する。
LF-Netでは、残差復号ネットワークと運動補償ネットワークの特徴を利用して復元品質を向上する。
- 参考スコア(独自算出の注目度): 31.8384928377888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a learned video codec with a residual prediction
network (RP-Net) and a feature-aided loop filter (LF-Net). For the RP-Net, we
exploit the residual of previous multiple frames to further eliminate the
redundancy of the current frame residual. For the LF-Net, the features from
residual decoding network and the motion compensation network are used to aid
the reconstruction quality. To reduce the complexity, a light ResNet structure
is used as the backbone for both RP-Net and LF-Net. Experimental results
illustrate that we can save about 10% BD-rate compared with previous learned
video compression frameworks. Moreover, we can achieve faster coding speed due
to the ResNet backbone. This project is available at
https://github.com/chaoliu18/RPLVC.
- Abstract(参考訳): 本稿では,残差予測ネットワーク(RP-Net)と機能支援ループフィルタ(LF-Net)を用いた学習ビデオコーデックを提案する。
RP-Netでは、過去の多重フレームの残余を利用して、現在のフレーム残余の冗長性をさらに排除する。
LF-Netでは、残差復号ネットワークと運動補償ネットワークの特徴を利用して復元品質を向上する。
複雑さを低減するため、RP-NetとLF-Netの両方のバックボーンとして軽量ResNet構造を用いる。
実験の結果,従来のビデオ圧縮フレームワークと比較して約10%のBDレートを節約できることがわかった。
さらに、resnetバックボーンのおかげで、より高速なコーディング速度を実現できます。
このプロジェクトはhttps://github.com/chaoliu18/RPLVCで入手できる。
関連論文リスト
- VQ-NeRV: A Vector Quantized Neural Representation for Videos [3.6662666629446043]
Inlicit Neural representations (INR)は、ニューラルネットワーク内のビデオのエンコーディングに優れ、ビデオ圧縮やデノイングといったコンピュータビジョンタスクにおける約束を示す。
本稿では,新しいコンポーネントであるVQ-NeRVブロックを統合した,高度なU字型アーキテクチャであるVector Quantized-NeRV(VQ-NeRV)を紹介する。
このブロックには、ネットワークの浅い残差特徴とフレーム間の残差情報を効果的に識別するコードブック機構が組み込まれている。
論文 参考訳(メタデータ) (2024-03-19T03:19:07Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - Structured Sparsity Learning for Efficient Video Super-Resolution [99.1632164448236]
我々は、ビデオ超解像(VSR)モデルの特性に応じて、構造化スパシティ学習(SSL)と呼ばれる構造化プルーニング手法を開発する。
SSLでは,残差ブロック,リカレントネットワーク,アップサンプリングネットワークなど,VSRモデルのいくつかの重要なコンポーネントに対するプルーニングスキームを設計する。
論文 参考訳(メタデータ) (2022-06-15T17:36:04Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Group Fisher Pruning for Practical Network Compression [58.25776612812883]
本稿では,様々な複雑な構造に応用可能な汎用チャネルプルーニング手法を提案する。
我々は、単一チャネルと結合チャネルの重要性を評価するために、フィッシャー情報に基づく統一されたメトリクスを導出する。
提案手法は,結合チャネルを含む任意の構造をプルークするために利用できる。
論文 参考訳(メタデータ) (2021-08-02T08:21:44Z) - Tensor Reordering for CNN Compression [7.228285747845778]
畳み込みニューラルネットワーク(CNN)フィルタにおけるパラメータ冗長性は,スペクトル領域におけるプルーニングによって効果的に低減できることを示す。
提案手法は事前学習したCNNに対して適用され,最小限の微調整により元のモデル性能を回復できることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:45:34Z) - A Deep-Unfolded Reference-Based RPCA Network For Video
Foreground-Background Separation [86.35434065681925]
本稿では,ロバスト主成分分析(RPCA)問題に対するディープアンフォールディングに基づくネットワーク設計を提案する。
既存の設計とは異なり,本手法は連続するビデオフレームのスパース表現間の時間的相関をモデル化することに焦点を当てている。
移動MNISTデータセットを用いた実験により、提案したネットワークは、ビデオフォアグラウンドとバックグラウンドの分離作業において、最近提案された最先端のRPCAネットワークより優れていることが示された。
論文 参考訳(メタデータ) (2020-10-02T11:40:09Z) - iSeeBetter: Spatio-temporal video super-resolution using recurrent
generative back-projection networks [0.0]
ビデオ超解像(VSR)に対する新しいGANに基づく構造時間的アプローチiSeeBetterを提案する。
iSeeBetterは、リカレントバックプロジェクションネットワークをジェネレータとして使用して、現在のフレームと隣接するフレームから時空間情報を抽出する。
以上の結果から,iSeeBetterはVSRの忠実度に優れ,最先端の性能に勝ることを示した。
論文 参考訳(メタデータ) (2020-06-13T01:36:30Z) - Learning Better Lossless Compression Using Lossy Compression [100.50156325096611]
我々は、ロスレス画像圧縮システムを構築するために、強力なロスレス画像圧縮アルゴリズムであるBPGを利用する。
我々は,BPG再構成を条件とした畳み込みニューラルネットワークに基づく確率モデルを用いて,残差分布をモデル化する。
そして、この画像は、BPGが生成したビットストリームと学習した残留コーダの連結を用いて保存される。
論文 参考訳(メタデータ) (2020-03-23T11:21:52Z) - Deep Residual-Dense Lattice Network for Speech Enhancement [29.53125031648651]
残差リンク(ResNet)と因果拡張畳み込みユニットを備えた畳み込みニューラルネットワーク(CNN)は、深層学習による音声強調のためのネットワークとして選択されている。
機能再使用を改善する1つの戦略は、ResNetと密結合CNN(DenseNets)を融合させることである。
本稿では,残差と高密度のアグリゲーションを両立させる残差格子ネットワーク(RDL-Net)を提案する。
論文 参考訳(メタデータ) (2020-02-27T04:36:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。