論文の概要: BVI-DVC: A Training Database for Deep Video Compression
- arxiv url: http://arxiv.org/abs/2003.13552v2
- Date: Thu, 8 Oct 2020 10:24:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 08:31:19.595935
- Title: BVI-DVC: A Training Database for Deep Video Compression
- Title(参考訳): BVI-DVC:ディープビデオ圧縮のためのトレーニングデータベース
- Authors: Di Ma, Fan Zhang, and David R. Bull
- Abstract要約: BVI-DVCはCNNベースのビデオ圧縮システムのトレーニング用に提供される。
270pから2160pまでの様々な空間分解能で800の配列を含む。
既存の10のネットワークアーキテクチャで、4つの異なるコーディングツールで評価されている。
- 参考スコア(独自算出の注目度): 13.730093064777078
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep learning methods are increasingly being applied in the optimisation of
video compression algorithms and can achieve significantly enhanced coding
gains, compared to conventional approaches. Such approaches often employ
Convolutional Neural Networks (CNNs) which are trained on databases with
relatively limited content coverage. In this paper, a new extensive and
representative video database, BVI-DVC, is presented for training CNN-based
video compression systems, with specific emphasis on machine learning tools
that enhance conventional coding architectures, including spatial resolution
and bit depth up-sampling, post-processing and in-loop filtering. BVI-DVC
contains 800 sequences at various spatial resolutions from 270p to 2160p and
has been evaluated on ten existing network architectures for four different
coding tools. Experimental results show that this database produces significant
improvements in terms of coding gains over three existing (commonly used)
image/video training databases under the same training and evaluation
configurations. The overall additional coding improvements by using the
proposed database for all tested coding modules and CNN architectures are up to
10.3% based on the assessment of PSNR and 8.1% based on VMAF.
- Abstract(参考訳): 深層学習法はビデオ圧縮アルゴリズムの最適化にますます適用されつつあり、従来の手法に比べて符号化効率が大幅に向上している。
このようなアプローチでは、比較的限られたコンテンツカバレッジを持つデータベースでトレーニングされる畳み込みニューラルネットワーク(CNN)を用いることが多い。
本稿では,空間分解能やビット深度アップサンプリング,後処理,ループ内フィルタリングなど,従来のコーディングアーキテクチャを強化する機械学習ツールを中心に,cnnを用いたビデオ圧縮システムのトレーニングを行うための,新たな広範かつ代表的なビデオデータベースbvi-dvcを提案する。
BVI-DVCは270pから2160pまでの様々な空間解像度で800のシーケンスを格納しており、4つの異なる符号化ツールに対して10の既存のネットワークアーキテクチャで評価されている。
実験結果から,本データベースは,既存の3つの画像/ビデオトレーニングデータベースに対して,同一のトレーニングおよび評価設定下でのコーディングゲインを著しく向上させることが示された。
全てのテスト済みのコーディングモジュールとCNNアーキテクチャに対して提案されたデータベースを使用することによる全体的なコーディング改善は、PSNRの評価に基づいて最大10.3%、VMAFに基づく8.1%となる。
関連論文リスト
- BVI-CR: A Multi-View Human Dataset for Volumetric Video Compression [14.109939177281069]
BVI-CRは18のマルチビューRGB-Dキャプチャとそれに対応するテクスチャ化された多角形メッシュを含んでいる。
各ビデオシーケンスは、30FPSで10~15秒間の1080p解像度で10ビューを含む。
その結果、ボリュームビデオ圧縮におけるニューラル表現に基づく手法の大きな可能性を示した。
論文 参考訳(メタデータ) (2024-11-17T23:22:48Z) - DMVC: Multi-Camera Video Compression Network aimed at Improving Deep Learning Accuracy [22.871591373774802]
ユビキタスビデオデータの時代に適した最先端のビデオ圧縮フレームワークを提案する。
人間の視覚知覚を優先する従来の圧縮手法とは異なり、我々の革新的なアプローチは、深層学習の精度に重要な意味情報の保存に重点を置いている。
設計されたディープラーニングアルゴリズムに基づいて、冗長性から必然的に重要な情報を分離し、機械学習タスクに最も関連性の高いデータの供給を確実にする。
論文 参考訳(メタデータ) (2024-10-24T03:29:57Z) - Computer Vision Model Compression Techniques for Embedded Systems: A Survey [75.38606213726906]
本稿では,コンピュータビジョンタスクに適用される主モデル圧縮技術について述べる。
本稿では,圧縮サブ領域の特性について述べるとともに,異なるアプローチを比較し,最適な手法を選択する方法について論じる。
初期の実装課題を克服する上で、研究者や新しい実践者を支援するためのコードも共有しています。
論文 参考訳(メタデータ) (2024-08-15T16:41:55Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - Graph Neural Networks for Channel Decoding [71.15576353630667]
低密度パリティチェック(LDPC)やBCH符号など、様々な符号化方式の競合復号性能を示す。
ニューラルネットワーク(NN)は、与えられたグラフ上で一般化されたメッセージパッシングアルゴリズムを学習する。
提案するデコーダを,従来のチャネル復号法および最近のディープラーニングに基づく結果と比較した。
論文 参考訳(メタデータ) (2022-07-29T15:29:18Z) - Deep Learning-Based Intra Mode Derivation for Versatile Video Coding [65.96100964146062]
本稿では,Deep Learning based intra Mode Derivation (DLIMD) と呼ばれるインテリジェントイントラモード導出法を提案する。
DLIMDのアーキテクチャは、異なる量子化パラメータ設定と、非平方要素を含む可変符号化ブロックに適応するように開発されている。
提案手法は,Versatile Video Coding (VVC) テストモデルを用いて,Y, U, Vコンポーネントの平均ビットレートを2.28%, 1.74%, 2.18%削減できる。
論文 参考訳(メタデータ) (2022-04-08T13:23:59Z) - Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。
HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。
3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文 参考訳(メタデータ) (2022-02-07T18:04:10Z) - Multitask Learning for VVC Quality Enhancement and Super-Resolution [11.446576112498596]
デコードされたVVCビデオ品質を高めるための後処理のステップとして学習ベースのソリューションを提案します。
提案手法はマルチタスク学習に依存し,複数のレベルに最適化された1つの共有ネットワークを用いて品質向上と超解像化を実現する。
論文 参考訳(メタデータ) (2021-04-16T19:05:26Z) - Multi-Density Attention Network for Loop Filtering in Video Compression [9.322800480045336]
ビデオ圧縮におけるループフィルタリングのためのオンラインスケーリングに基づく多密度注意ネットワークを提案する。
実験の結果、同じビデオ品質で10.18%のビットレート削減が最新のVVC(Versatile Video Coding)規格で達成できることが示された。
論文 参考訳(メタデータ) (2021-04-08T05:46:38Z) - Multiresolution Convolutional Autoencoders [5.0169726108025445]
本稿では,3つの数学的アーキテクチャを統合し,活用する多分解能畳み込みオートエンコーダアーキテクチャを提案する。
基礎学習技術を適用して、以前のトレーニングステップから学んだ情報を、より大規模なネットワークに迅速に転送できるようにする。
合成例と実世界の空間データに関する数値実験により,性能向上を図示する。
論文 参考訳(メタデータ) (2020-04-10T08:31:59Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。