Fugu-MT 論文翻訳(概要): Learned Video Compression for YUV 4:2:0 Content Using Flow-based Conditional Inter-frame Coding

論文の概要: Learned Video Compression for YUV 4:2:0 Content Using Flow-based Conditional Inter-frame Coding

arxiv url: http://arxiv.org/abs/2210.08225v1
Date: Sat, 15 Oct 2022 08:36:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-18 17:59:33.644677
Title: Learned Video Compression for YUV 4:2:0 Content Using Flow-based Conditional Inter-frame Coding
Title（参考訳）: フローベース条件付きフレーム間符号化によるyuv 4:2:0コンテンツの学習ビデオ圧縮
Authors: Yung-Han Ho, Chih-Hsuan Lin, Peng-Yu Chen, Mu-Jung Chen, Chih-Peng Chang, Wen-Hsiao Peng, Hsueh-Ming Hang
Abstract要約: 本稿では,YUV 4:2:0コンテンツ上での可変レート符号化のための学習型ビデオ圧縮フレームワークを提案する。条件付きフローベースフレーム間コーダを導入し,フレーム間符号化効率を向上させる。実験結果から,UVGおよびMCL-JCVデータセットのX265よりも優れた性能を示した。
参考スコア（独自算出の注目度）: 24.031385522441497
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper proposes a learning-based video compression framework for variable-rate coding on YUV 4:2:0 content. Most existing learning-based video compression models adopt the traditional hybrid-based coding architecture, which involves temporal prediction followed by residual coding. However, recent studies have shown that residual coding is sub-optimal from the information-theoretic perspective. In addition, most existing models are optimized with respect to RGB content. Furthermore, they require separate models for variable-rate coding. To address these issues, this work presents an attempt to incorporate the conditional inter-frame coding for YUV 4:2:0 content. We introduce a conditional flow-based inter-frame coder to improve the inter-frame coding efficiency. To adapt our codec to YUV 4:2:0 content, we adopt a simple strategy of using space-to-depth and depth-to-space conversions. Lastly, we employ a rate-adaption net to achieve variable-rate coding without training multiple models. Experimental results show that our model performs better than x265 on UVG and MCL-JCV datasets in terms of PSNR-YUV. However, on the more challenging datasets from ISCAS'22 GC, there is still ample room for improvement. This insufficient performance is due to the lack of inter-frame coding capability at a large GOP size and can be mitigated by increasing the model capacity and applying an error propagation-aware training strategy.
Abstract（参考訳）: 本稿では,YUV 4:2:0コンテンツ上での可変レート符号化のための学習型ビデオ圧縮フレームワークを提案する。既存の学習ベースのビデオ圧縮モデルは、時間的予測と残留符号化を含む伝統的なハイブリッドベースのコーディングアーキテクチャを採用している。しかし、最近の研究では、残差符号化は情報理論の観点から準最適であることが示されている。さらに、既存のモデルのほとんどはRGBコンテンツに対して最適化されている。さらに、可変レート符号化には別々のモデルが必要となる。これらの問題に対処するため、本研究では、yuv 4:2:0コンテンツに条件付きフレーム間コーディングを組み込む試みを示す。条件付きフローベースフレーム間コーダを導入し,フレーム間符号化効率を向上させる。コーデックを yuv 4:2:0 コンテンツに適応させるためには、空間間および深さ間変換を使用する単純な戦略を採用する。最後に、複数のモデルを訓練することなく可変レート符号化を実現するためにレート適応ネットを用いる。実験の結果,PSNR-YUVでは,UVGおよびMCL-JCVデータセット上でx265よりも優れた性能を示した。しかし、ISCAS'22 GCのより困難なデータセットでは、改善の余地は十分にある。この不十分な性能は、大きなgopサイズでのフレーム間コーディング能力の欠如によるものであり、モデルの容量を増加させ、エラー伝播対応トレーニング戦略を適用することで軽減することができる。

関連論文リスト

Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。 TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文参考訳（メタデータ） (2024-08-15T11:36:18Z)
Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文参考訳（メタデータ） (2024-06-12T01:12:53Z)
Hierarchical B-frame Video Coding Using Two-Layer CANF without Motion Coding [17.998825368770635]
2層拡張正規化フロー(CANF)に基づく新しいBフレーム符号化アーキテクチャを提案する。モーションコーディングを伴わないビデオ圧縮というアイデアは,学習ビデオ符号化の新たな方向性を提供する。提案方式の速度歪み性能は,最先端のBフレーム符号化方式であるB-CANFよりも若干低いが,他のBフレーム符号化方式よりも優れている。
論文参考訳（メタデータ） (2023-04-05T18:36:28Z)
Learned Hierarchical B-frame Coding with Adaptive Feature Modulation for YUV 4:2:0 Content [13.289507865388863]
本稿では,ISCAS 2023におけるニューラルネットワークに基づくビデオ符号化のグランドチャレンジに対応する,階層的Bフレーム符号化方式を提案する。具体的には,(1)Bフレーム符号化,(2)YUV 4:2:0符号化,(3)単一モデルのみによるコンテンツ適応型可変レート符号化の3つの問題に対処する。
論文参考訳（メタデータ） (2022-12-29T06:22:52Z)
CANF-VC: Conditional Augmented Normalizing Flows for Video Compression [81.41594331948843]
CANF-VCは、エンドツーエンドの学習ベースのビデオ圧縮システムである。条件付き拡張正規化フロー(ANF)に基づく。
論文参考訳（メタデータ） (2022-07-12T04:53:24Z)
A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。 8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文参考訳（メタデータ） (2022-02-06T16:29:15Z)
A Combined Deep Learning based End-to-End Video Coding Architecture for YUV Color Space [14.685161934404123]
既存のディープラーニングベースのエンドツーエンドビデオコーディング(DLEC)アーキテクチャのほとんどは、RGBカラーフォーマット用に特別に設計されています。本稿では、YUV 4:2:0を効果的にサポートするビデオコーディング用の新しいDLECアーキテクチャを導入し、そのパフォーマンスをHEVC標準と比較する。
論文参考訳（メタデータ） (2021-04-01T23:41:06Z)
Transform Network Architectures for Deep Learning based End-to-End Image/Video Coding in Subsampled Color Spaces [16.83399026040147]
本稿では,YUV 4:2:0フォーマットをサポートする様々なDLEC設計について検討する。 YUV 4:2:0データのコーディング効率を改善するために、新しい変換ネットワークアーキテクチャが提案されている。
論文参考訳（メタデータ） (2021-02-27T06:47:27Z)
Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文参考訳（メタデータ） (2020-08-20T20:01:59Z)
Variable Rate Video Compression using a Hybrid Recurrent Convolutional Learning Framework [1.9290392443571382]
本稿では,予測自動符号化の概念に基づくハイブリッドビデオ圧縮フレームワークであるPredEncoderを提案する。可変レートブロック符号化方式が論文で提案され,ビットレート比が著しく向上した。
論文参考訳（メタデータ） (2020-04-08T20:49:25Z)
Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文参考訳（メタデータ） (2020-03-25T09:04:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。