論文の概要: BVI-DVC: A Training Database for Deep Video Compression
- arxiv url: http://arxiv.org/abs/2003.13552v2
- Date: Thu, 8 Oct 2020 10:24:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 08:31:19.595935
- Title: BVI-DVC: A Training Database for Deep Video Compression
- Title(参考訳): BVI-DVC:ディープビデオ圧縮のためのトレーニングデータベース
- Authors: Di Ma, Fan Zhang, and David R. Bull
- Abstract要約: BVI-DVCはCNNベースのビデオ圧縮システムのトレーニング用に提供される。
270pから2160pまでの様々な空間分解能で800の配列を含む。
既存の10のネットワークアーキテクチャで、4つの異なるコーディングツールで評価されている。
- 参考スコア(独自算出の注目度): 13.730093064777078
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep learning methods are increasingly being applied in the optimisation of
video compression algorithms and can achieve significantly enhanced coding
gains, compared to conventional approaches. Such approaches often employ
Convolutional Neural Networks (CNNs) which are trained on databases with
relatively limited content coverage. In this paper, a new extensive and
representative video database, BVI-DVC, is presented for training CNN-based
video compression systems, with specific emphasis on machine learning tools
that enhance conventional coding architectures, including spatial resolution
and bit depth up-sampling, post-processing and in-loop filtering. BVI-DVC
contains 800 sequences at various spatial resolutions from 270p to 2160p and
has been evaluated on ten existing network architectures for four different
coding tools. Experimental results show that this database produces significant
improvements in terms of coding gains over three existing (commonly used)
image/video training databases under the same training and evaluation
configurations. The overall additional coding improvements by using the
proposed database for all tested coding modules and CNN architectures are up to
10.3% based on the assessment of PSNR and 8.1% based on VMAF.
- Abstract(参考訳): 深層学習法はビデオ圧縮アルゴリズムの最適化にますます適用されつつあり、従来の手法に比べて符号化効率が大幅に向上している。
このようなアプローチでは、比較的限られたコンテンツカバレッジを持つデータベースでトレーニングされる畳み込みニューラルネットワーク(CNN)を用いることが多い。
本稿では,空間分解能やビット深度アップサンプリング,後処理,ループ内フィルタリングなど,従来のコーディングアーキテクチャを強化する機械学習ツールを中心に,cnnを用いたビデオ圧縮システムのトレーニングを行うための,新たな広範かつ代表的なビデオデータベースbvi-dvcを提案する。
BVI-DVCは270pから2160pまでの様々な空間解像度で800のシーケンスを格納しており、4つの異なる符号化ツールに対して10の既存のネットワークアーキテクチャで評価されている。
実験結果から,本データベースは,既存の3つの画像/ビデオトレーニングデータベースに対して,同一のトレーニングおよび評価設定下でのコーディングゲインを著しく向上させることが示された。
全てのテスト済みのコーディングモジュールとCNNアーキテクチャに対して提案されたデータベースを使用することによる全体的なコーディング改善は、PSNRの評価に基づいて最大10.3%、VMAFに基づく8.1%となる。
関連論文リスト
- HiNeRV: Video Compression with Hierarchical Encoding-based Neural
Representation [14.088444622391501]
Implicit Representations (INRs) は画像やビデオのコンテントの表現や圧縮に使われてきた。
既存のINRベースの手法は、ビデオ圧縮の最先端技術に匹敵する速度性能を達成できなかった。
軽量層と階層的位置符号化を組み合わせたINRであるHiNeRVを提案する。
論文 参考訳(メタデータ) (2023-06-16T12:59:52Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Graph Neural Networks for Channel Decoding [71.15576353630667]
低密度パリティチェック(LDPC)やBCH符号など、様々な符号化方式の競合復号性能を示す。
ニューラルネットワーク(NN)は、与えられたグラフ上で一般化されたメッセージパッシングアルゴリズムを学習する。
提案するデコーダを,従来のチャネル復号法および最近のディープラーニングに基づく結果と比較した。
論文 参考訳(メタデータ) (2022-07-29T15:29:18Z) - Deep Learning-Based Intra Mode Derivation for Versatile Video Coding [65.96100964146062]
本稿では,Deep Learning based intra Mode Derivation (DLIMD) と呼ばれるインテリジェントイントラモード導出法を提案する。
DLIMDのアーキテクチャは、異なる量子化パラメータ設定と、非平方要素を含む可変符号化ブロックに適応するように開発されている。
提案手法は,Versatile Video Coding (VVC) テストモデルを用いて,Y, U, Vコンポーネントの平均ビットレートを2.28%, 1.74%, 2.18%削減できる。
論文 参考訳(メタデータ) (2022-04-08T13:23:59Z) - Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。
HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。
3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文 参考訳(メタデータ) (2022-02-07T18:04:10Z) - Perceptual Coding for Compressed Video Understanding: A New Framework
and Benchmark [57.23523738351178]
本稿では,ビデオ理解のための最初のプログラミングフレームワークを提案する。このフレームワークでは,別の学習可能な知覚ビットストリームを導入し,同時にビデオビットストリームを転送する。
このフレームワークは,(1)産業用ビデオの高能率コンテンツ符号化,(2)ニューラルネットワーク(NN)のフレキシブルパーセプチュアル符号化,という2つの世界の長所を享受することができる。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Multitask Learning for VVC Quality Enhancement and Super-Resolution [11.446576112498596]
デコードされたVVCビデオ品質を高めるための後処理のステップとして学習ベースのソリューションを提案します。
提案手法はマルチタスク学習に依存し,複数のレベルに最適化された1つの共有ネットワークを用いて品質向上と超解像化を実現する。
論文 参考訳(メタデータ) (2021-04-16T19:05:26Z) - Multi-Density Attention Network for Loop Filtering in Video Compression [9.322800480045336]
ビデオ圧縮におけるループフィルタリングのためのオンラインスケーリングに基づく多密度注意ネットワークを提案する。
実験の結果、同じビデオ品質で10.18%のビットレート削減が最新のVVC(Versatile Video Coding)規格で達成できることが示された。
論文 参考訳(メタデータ) (2021-04-08T05:46:38Z) - CVEGAN: A Perceptually-inspired GAN for Compressed Video Enhancement [15.431248645312309]
CVEGAN(Compressed Video Quality Enhancement)のための新しいジェネレーティブ・アドバイザリアル・ネットワークを提案する。
CVEGANジェネレータは、新しいMul2Resブロック(複数レベルの残留学習枝を持つ)、強化された残留非局所ブロック(ERNB)、拡張された畳み込みブロックアテンションモジュール(ECBAM)の恩恵を受けている。
トレーニング戦略は、相対論的球面GAN(ReSphereGAN)トレーニング手法と新しい知覚的損失関数を併用するために、特にビデオ圧縮アプリケーションのために再設計されている。
論文 参考訳(メタデータ) (2020-11-18T10:24:38Z) - Multiresolution Convolutional Autoencoders [5.0169726108025445]
本稿では,3つの数学的アーキテクチャを統合し,活用する多分解能畳み込みオートエンコーダアーキテクチャを提案する。
基礎学習技術を適用して、以前のトレーニングステップから学んだ情報を、より大規模なネットワークに迅速に転送できるようにする。
合成例と実世界の空間データに関する数値実験により,性能向上を図示する。
論文 参考訳(メタデータ) (2020-04-10T08:31:59Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。