論文の概要: Transform Network Architectures for Deep Learning based End-to-End
Image/Video Coding in Subsampled Color Spaces
- arxiv url: http://arxiv.org/abs/2103.01760v1
- Date: Sat, 27 Feb 2021 06:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 17:29:39.019773
- Title: Transform Network Architectures for Deep Learning based End-to-End
Image/Video Coding in Subsampled Color Spaces
- Title(参考訳): サブサンプルカラー空間におけるエンド・ツー・エンド画像・ビデオ符号化のためのトランスフォーメーションネットワークアーキテクチャ
- Authors: Hilmi E. Egilmez, Ankitesh K. Singh, Muhammed Coban, Marta Karczewicz,
Yinhao Zhu, Yang Yang, Amir Said, Taco S. Cohen
- Abstract要約: 本稿では,YUV 4:2:0フォーマットをサポートする様々なDLEC設計について検討する。
YUV 4:2:0データのコーディング効率を改善するために、新しい変換ネットワークアーキテクチャが提案されている。
- 参考スコア(独自算出の注目度): 16.83399026040147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of the existing deep learning based end-to-end image/video coding (DLEC)
architectures are designed for non-subsampled RGB color format. However, in
order to achieve a superior coding performance, many state-of-the-art
block-based compression standards such as High Efficiency Video Coding
(HEVC/H.265) and Versatile Video Coding (VVC/H.266) are designed primarily for
YUV 4:2:0 format, where U and V components are subsampled by considering the
human visual system. This paper investigates various DLEC designs to support
YUV 4:2:0 format by comparing their performance against the main profiles of
HEVC and VVC standards under a common evaluation framework. Moreover, a new
transform network architecture is proposed to improve the efficiency of coding
YUV 4:2:0 data. The experimental results on YUV 4:2:0 datasets show that the
proposed architecture significantly outperforms naive extensions of existing
architectures designed for RGB format and achieves about 10% average BD-rate
improvement over the intra-frame coding in HEVC.
- Abstract(参考訳): 既存のディープラーニングベースのエンドツーエンド画像/ビデオ符号化(DLEC)アーキテクチャのほとんどは、非サブサンプルRGBカラーフォーマット用に設計されている。
しかし、優れたコーディング性能を達成するために、高性能ビデオ符号化(HEVC/H.265)や汎用ビデオ符号化(VVC/H.266)などの最先端のブロックベースの圧縮標準は、主にYUV 4:2:0フォーマット用に設計されており、UおよびVコンポーネントは人間の視覚システムを考慮してサブサンプリングされる。
本論文では,YUV 4:2:0フォーマットをサポートするDLEC設計について,HEVCとVVC標準の主なプロファイルと比較し,共通評価フレームワークを用いて検討する。
さらに,YUV 4:2:0データの符号化効率を向上させるために,新しいトランスフォーメーションネットワークアーキテクチャを提案する。
YUV 4:2:0データセットの実験結果によると、提案されたアーキテクチャは、RGBフォーマット用に設計された既存のアーキテクチャのナイーブ拡張を大幅に上回り、HEVCのフレーム内コーディングよりも約10%の平均BDレート改善を達成している。
関連論文リスト
- When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - Towards Efficient SDRTV-to-HDRTV by Learning from Image Formation [51.26219245226384]
モダンディスプレイは、高ダイナミックレンジ(WCG)と広色域(SDR)で映像コンテンツをレンダリングすることができる
利用可能なリソースの大部分は、まだ標準動的範囲(SDR)にある。
我々は、SDRTV/TVコンテンツの形成をモデル化し、SDRTV-to-TVタスクを定義し、分析する。
本手法は主に超高精細テレビコンテンツ向けに設計されており、4K解像度画像の処理に有効で軽量である。
論文 参考訳(メタデータ) (2023-09-08T02:50:54Z) - Learned Hierarchical B-frame Coding with Adaptive Feature Modulation for
YUV 4:2:0 Content [13.289507865388863]
本稿では,ISCAS 2023におけるニューラルネットワークに基づくビデオ符号化のグランドチャレンジに対応する,階層的Bフレーム符号化方式を提案する。
具体的には,(1)Bフレーム符号化,(2)YUV 4:2:0符号化,(3)単一モデルのみによるコンテンツ適応型可変レート符号化の3つの問題に対処する。
論文 参考訳(メタデータ) (2022-12-29T06:22:52Z) - Learned Video Compression for YUV 4:2:0 Content Using Flow-based
Conditional Inter-frame Coding [24.031385522441497]
本稿では,YUV 4:2:0コンテンツ上での可変レート符号化のための学習型ビデオ圧縮フレームワークを提案する。
条件付きフローベースフレーム間コーダを導入し,フレーム間符号化効率を向上させる。
実験結果から,UVGおよびMCL-JCVデータセットのX265よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-10-15T08:36:01Z) - Efficient VVC Intra Prediction Based on Deep Feature Fusion and
Probability Estimation [57.66773945887832]
本稿では,フレーム内予測におけるVersatile Video Coding (VVC) の複雑性を,深層融合と確率推定の2段階のフレームワークを用いて最適化することを提案する。
特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-05-07T08:01:32Z) - Deep Learning-Based Intra Mode Derivation for Versatile Video Coding [65.96100964146062]
本稿では,Deep Learning based intra Mode Derivation (DLIMD) と呼ばれるインテリジェントイントラモード導出法を提案する。
DLIMDのアーキテクチャは、異なる量子化パラメータ設定と、非平方要素を含む可変符号化ブロックに適応するように開発されている。
提案手法は,Versatile Video Coding (VVC) テストモデルを用いて,Y, U, Vコンポーネントの平均ビットレートを2.28%, 1.74%, 2.18%削減できる。
論文 参考訳(メタデータ) (2022-04-08T13:23:59Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - A Combined Deep Learning based End-to-End Video Coding Architecture for
YUV Color Space [14.685161934404123]
既存のディープラーニングベースのエンドツーエンドビデオコーディング(DLEC)アーキテクチャのほとんどは、RGBカラーフォーマット用に特別に設計されています。
本稿では、YUV 4:2:0を効果的にサポートするビデオコーディング用の新しいDLECアーキテクチャを導入し、そのパフォーマンスをHEVC標準と比較する。
論文 参考訳(メタデータ) (2021-04-01T23:41:06Z) - Video Compression with CNN-based Post Processing [18.145942926665164]
本稿では,2つの最先端コーディング標準であるVVCとAV1を統合したCNNベースのポストプロセッシング手法を提案する。
その結果、様々な空間解像度でテストされた全てのシーケンスで一貫した符号化が得られ、それぞれ平均ビットレートは4.0%、AV1に対して5.8%である。
論文 参考訳(メタデータ) (2020-09-16T10:07:32Z) - BVI-DVC: A Training Database for Deep Video Compression [13.730093064777078]
BVI-DVCはCNNベースのビデオ圧縮システムのトレーニング用に提供される。
270pから2160pまでの様々な空間分解能で800の配列を含む。
既存の10のネットワークアーキテクチャで、4つの異なるコーディングツールで評価されている。
論文 参考訳(メタデータ) (2020-03-30T15:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。