論文の概要: Joint Reference Frame Synthesis and Post Filter Enhancement for Versatile Video Coding
- arxiv url: http://arxiv.org/abs/2404.18058v1
- Date: Sun, 28 Apr 2024 03:11:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 18:02:54.161656
- Title: Joint Reference Frame Synthesis and Post Filter Enhancement for Versatile Video Coding
- Title(参考訳): ビデオ符号化における共同参照フレーム合成とポストフィルタの強化
- Authors: Weijie Bao, Yuantong Zhang, Jianghao Jia, Zhenzhong Chen, Shan Liu,
- Abstract要約: 本稿では, Versatile Video Coding (VVC) のためのジョイントリファレンスフレーム合成 (RFS) と後処理フィルタ拡張 (PFE) を提案する。
RFS と PFE は Space-Time Enhancement Network (STENet) を使用しており、2つの入力フレームをアーティファクトで受信し、2つの拡張フレームを圧縮されたアーティファクトと中間合成フレームで生成する。
推論の複雑さを低減するために,STENetの単一実行によって達成されるFSとPFE(JISE)の合同推論を提案する。
- 参考スコア(独自算出の注目度): 53.703894799335735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the joint reference frame synthesis (RFS) and post-processing filter enhancement (PFE) for Versatile Video Coding (VVC), aiming to explore the combination of different neural network-based video coding (NNVC) tools to better utilize the hierarchical bi-directional coding structure of VVC. Both RFS and PFE utilize the Space-Time Enhancement Network (STENet), which receives two input frames with artifacts and produces two enhanced frames with suppressed artifacts, along with an intermediate synthesized frame. STENet comprises two pipelines, the synthesis pipeline and the enhancement pipeline, tailored for different purposes. During RFS, two reconstructed frames are sent into STENet's synthesis pipeline to synthesize a virtual reference frame, similar to the current to-be-coded frame. The synthesized frame serves as an additional reference frame inserted into the reference picture list (RPL). During PFE, two reconstructed frames are fed into STENet's enhancement pipeline to alleviate their artifacts and distortions, resulting in enhanced frames with reduced artifacts and distortions. To reduce inference complexity, we propose joint inference of RFS and PFE (JISE), achieved through a single execution of STENet. Integrated into the VVC reference software VTM-15.0, RFS, PFE, and JISE are coordinated within a novel Space-Time Enhancement Window (STEW) under Random Access (RA) configuration. The proposed method could achieve -7.34%/-17.21%/-16.65% PSNR-based BD-rate on average for three components under RA configuration.
- Abstract(参考訳): 本稿では、VVCの階層的双方向符号化構造をよりよく活用するために、異なるニューラルネットワークベースのビデオ符号化(NNVC)ツールの組み合わせを検討することを目的とした、Versatile Video Coding(VVC)のためのジョイントリファレンスフレーム合成(RFS)と後処理フィルタ拡張(PFE)を提案する。
RFS と PFE は Space-Time Enhancement Network (STENet) を用いており、2つの入力フレームをアーティファクトで受信し、2つの拡張フレームを圧縮されたアーティファクトと中間合成フレームで生成する。
STENetは2つのパイプラインで構成されている。
RFSの間、2つの再構成されたフレームがSTENetの合成パイプラインに送られ、現在のTo-be-codedフレームに似た仮想参照フレームが合成される。
合成フレームは、参照画像リスト(RPL)に挿入された追加の参照フレームとして機能する。
PFEの間、2つの再構成されたフレームがSTENetの拡張パイプラインに供給され、アーティファクトと歪みが軽減され、アーティファクトと歪みが減少する。
推論の複雑さを低減するために,STENetの単一実行によって達成されるFSとPFE(JISE)の合同推論を提案する。
VVCのリファレンスソフトウェアであるVTM-15.0, RFS, PFE, JISEは、Random Access(RA)構成の下で、新しい空間時間拡張ウィンドウ(STEW)内で協調される。
提案手法は、RA構成下の3つのコンポーネントの平均-7.34%/-17.21%/-16.65%PSNRベースのBDレートを達成することができる。
関連論文リスト
- Efficient View Synthesis and 3D-based Multi-Frame Denoising with
Multiplane Feature Representations [1.18885605647513]
本稿では,3Dベースのマルチフレームデノベーション手法を初めて導入し,より少ない計算量で2Dベースのデノベーションを著しく上回った。
特徴空間に多面体を操作する学習可能なエンコーダ-レンダペアを導入することにより,新しいビュー合成のための多面体画像(MPI)フレームワークを拡張した。
論文 参考訳(メタデータ) (2023-03-31T15:23:35Z) - A Unified Pyramid Recurrent Network for Video Frame Interpolation [10.859715542859773]
フレーム合成のための統一ピラミッドリカレントネットワークであるUPR-Netを提案する。
本研究では,我々の反復合成戦略により,大規模運動症例におけるフレームのロバスト性を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-11-07T11:12:31Z) - Temporal Consistency Learning of inter-frames for Video Super-Resolution [38.26035126565062]
ビデオ超解像(VSR)は、低解像度(LR)参照フレームと複数の隣接フレームから高解像度(HR)フレームを再構成することを目的としたタスクである。
既存の手法は一般に情報伝達とフレームアライメントを探求し、VSRの性能を向上させる。
本稿では,再建されたビデオの一貫性を高めるため,VSRのための時間一貫性学習ネットワーク(TCNet)を提案する。
論文 参考訳(メタデータ) (2022-11-03T08:23:57Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - STDAN: Deformable Attention Network for Space-Time Video
Super-Resolution [39.18399652834573]
本稿では,STDAN と呼ばれる,STVSR のための変形可能なアテンションネットワークを提案する。
まず、より近隣の入力フレームから豊富なコンテンツを得ることができるLSTFI(long-short term feature)モジュールを考案する。
第2に,空間的・時間的文脈を適応的に捕捉・集約する時空間変形可能特徴集合(STDFA)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-14T03:40:35Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z) - PP-MSVSR: Multi-Stage Video Super-Resolution [4.039183755023383]
ビデオ超解法(VSR)タスクの鍵は、フレーム間の補完情報をフル活用して高解像度シーケンスを再構築することである。
PP-MSVSRと呼ばれる多段VSR深層構造を, 局所融合モジュール, 補助損失, 再配置モジュールを用いて提案する。
PP-MSVSRのPSNRは28.13dBであり、パラメータはわずか1.45Mである。
論文 参考訳(メタデータ) (2021-12-06T07:28:52Z) - Optical-Flow-Reuse-Based Bidirectional Recurrent Network for Space-Time
Video Super-Resolution [52.899234731501075]
時空間ビデオ超解像(ST-VSR)は、与えられたビデオの空間解像度とフレームレートを同時に増加させる。
既存の手法は通常、近隣の幅広いフレームからの情報を効率的に活用する方法の難しさに悩まされる。
本稿では,隣接するフレーム間の知識を活用するために,ConvLSTMの代わりに粗大な双方向リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T15:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。