論文の概要: MFRNet: A New CNN Architecture for Post-Processing and In-loop Filtering
- arxiv url: http://arxiv.org/abs/2007.07099v2
- Date: Fri, 11 Dec 2020 21:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 14:23:51.038000
- Title: MFRNet: A New CNN Architecture for Post-Processing and In-loop Filtering
- Title(参考訳): MFRNet: 後処理とインループフィルタリングのための新しいCNNアーキテクチャ
- Authors: Di Ma, Fan Zhang, and David R. Bull
- Abstract要約: 本稿では,ビデオ圧縮における後処理 (PP) とインループフィルタリング (ILF) のための新しい畳み込みニューラルネットワーク (CNN) アーキテクチャ MFRNet を提案する。
このネットワークは、カスケード構造を用いて接続された4つのMFRB(MFRB)から構成される。
- 参考スコア(独自算出の注目度): 13.730093064777078
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we propose a novel convolutional neural network (CNN)
architecture, MFRNet, for post-processing (PP) and in-loop filtering (ILF) in
the context of video compression. This network consists of four Multi-level
Feature review Residual dense Blocks (MFRBs), which are connected using a
cascading structure. Each MFRB extracts features from multiple convolutional
layers using dense connections and a multi-level residual learning structure.
In order to further improve information flow between these blocks, each of them
also reuses high dimensional features from the previous MFRB. This network has
been integrated into PP and ILF coding modules for both HEVC (HM 16.20) and VVC
(VTM 7.0), and fully evaluated under the JVET Common Test Conditions using the
Random Access configuration. The experimental results show significant and
consistent coding gains over both anchor codecs (HEVC HM and VVC VTM) and also
over other existing CNN-based PP/ILF approaches based on Bjontegaard Delta
measurements using both PSNR and VMAF for quality assessment. When MFRNet is
integrated into HM 16.20, gains up to 16.0% (BD-rate VMAF) are demonstrated for
ILF, and up to 21.0% (BD-rate VMAF) for PP. The respective gains for VTM 7.0
are up to 5.1% for ILF and up to 7.1% for PP.
- Abstract(参考訳): 本稿では,ビデオ圧縮における後処理 (PP) とインループフィルタリング (ILF) のための新しい畳み込みニューラルネットワーク (CNN) アーキテクチャ MFRNet を提案する。
このネットワークは、カスケード構造を用いて接続される4つのmfrb(multi-level feature review residual dense blocks)で構成される。
各MFRBは、密接な接続と多レベル残差学習構造を用いて、複数の畳み込み層から特徴を抽出する。
これらのブロック間の情報フローをさらに改善するために、それぞれが以前のmfrbから高次元の特徴を再利用する。
このネットワークはHEVC (HM 16.20) とVVC (VTM 7.0) の両方のPPとILFのコーディングモジュールに統合され、ランダムアクセス構成を用いてJVET共通テスト条件で完全に評価されている。
実験の結果、アンカーコーデック(HEVC HMとVVC VTM)と、Bjontegaard Delta測定に基づく既存のCNNベースのPP/ILFアプローチの両方に対して、PSNRとVMAFの両方を用いて品質評価を行った。
MFRNetをHM 16.20に統合すると、ILFでは最大16.0%(BDレートVMAF)、PPでは最大21.0%(BDレートVMAF)となる。
VTM 7.0のそれぞれの利得は、ILFでは5.1%、PPでは7.1%である。
関連論文リスト
- Joint Reference Frame Synthesis and Post Filter Enhancement for Versatile Video Coding [53.703894799335735]
本稿では, Versatile Video Coding (VVC) のためのジョイントリファレンスフレーム合成 (RFS) と後処理フィルタ拡張 (PFE) を提案する。
RFS と PFE は Space-Time Enhancement Network (STENet) を使用しており、2つの入力フレームをアーティファクトで受信し、2つの拡張フレームを圧縮されたアーティファクトと中間合成フレームで生成する。
推論の複雑さを低減するために,STENetの単一実行によって達成されるFSとPFE(JISE)の合同推論を提案する。
論文 参考訳(メタデータ) (2024-04-28T03:11:44Z) - Light-weight CNN-based VVC Inter Partitioning Acceleration [28.62405283825515]
Versatile Video Coding(VVC)標準は、2020年にJVET(Joint Video Exploration Team)によって確定した。
VVC は Bjontegaard Delta-Rate (BD-rate) の約50%の圧縮効率向上を提供する。
本稿では,VVCにおけるパーティショニングを高速化するために,畳み込みニューラルネットワーク(CNN)に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-12-17T00:20:02Z) - ShareGPT4V: Improving Large Multi-Modal Models with Better Captions [81.95879920888716]
120万の記述キャプションを含むデータセットであるShareGPT4Vを紹介する。
このデータセットは、多様性と情報内容の既存のデータセットを超え、世界的知識、オブジェクトの特性、空間的関係、美的評価をカバーしている。
さらに,ShareGPT4Vデータを事前学習とSFTフェーズの両方に組み込んで,優れたLMMであるShareGPT4V-7Bを得る。
論文 参考訳(メタデータ) (2023-11-21T18:58:11Z) - Enhancing the accuracies by performing pooling decisions adjacent to the
output layer [0.0]
CIFAR-10データベースを用いて、最終畳み込み層に隣接するプール決定が精度を大幅に向上させることを示す。
その結果、A-VGG8sの精度はVGG16sよりも優れており、A-VGG13とA-VGG16の精度はWide-ResNet16と同等であることがわかった。
論文 参考訳(メタデータ) (2023-03-10T09:09:37Z) - Pruning by Active Attention Manipulation [49.61707925611295]
CNNのフィルタプルーニングは典型的には、CNNのフィルタ重みやアクティベーションマップに離散マスクを適用することで達成される。
ここでは、アクティブアテンション操作(PAAM)によるプルーニング(pruning)という新しいフィルタ強調表示概念を提案する。
PAAMはフィルタ重みからアナログフィルタスコアを学習し、そのスコアの加算項によって正規化されたコスト関数を最適化する。
論文 参考訳(メタデータ) (2022-10-20T09:17:02Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - DeMFI: Deep Joint Deblurring and Multi-Frame Interpolation with
Flow-Guided Attentive Correlation and Recursive Boosting [50.17500790309477]
DeMFI-Netは、共同でデブロアリングとマルチフレームのフレームワークである。
低フレームレートのぼやけたビデオを高フレームレートでシャープなビデオに変換する。
多様なデータセットに対して、最先端(SOTA)のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-19T00:00:15Z) - Deep Learning Estimation of Multi-Tissue Constrained Spherical
Deconvolution with Limited Single Shell DW-MRI [2.903217519429591]
深層学習は、第8次制約付き球面デコンボリューション(CSD)によって得られた情報内容を推定するために用いられる。
2つのネットワークアーキテクチャについて検討する: 中央に残留ブロックを持つ完全連結層からなる逐次ネットワーク(ResDNN)と、残ブロックを持つパッチベースの畳み込みニューラルネットワーク(ResCNN)。
繊維配向分布関数 (fODF) はマルチシェルDW-MRIの取得から得られたMT-CSTの基底的真実と比較して高い相関で復元できる。
論文 参考訳(メタデータ) (2020-02-20T15:59:03Z) - FPCR-Net: Feature Pyramidal Correlation and Residual Reconstruction for
Optical Flow Estimation [72.41370576242116]
フレーム対からの光フロー推定のための半教師付き特徴ピラミッド相関・残留再構成ネットワーク(FPCR-Net)を提案する。
ピラミッド相関マッピングと残留再構成の2つの主要なモジュールで構成されている。
実験結果から,提案手法は,平均終点誤差 (AEE) に対して0.80, 1.15, 0.10の改善を達成し,最先端性能を実現していることがわかった。
論文 参考訳(メタデータ) (2020-01-17T07:13:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。