論文の概要: CAESR: Conditional Autoencoder and Super-Resolution for Learned Spatial
Scalability
- arxiv url: http://arxiv.org/abs/2202.00416v1
- Date: Tue, 1 Feb 2022 13:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 15:28:32.341808
- Title: CAESR: Conditional Autoencoder and Super-Resolution for Learned Spatial
Scalability
- Title(参考訳): CAESR:学習空間スケーラビリティのための条件付きオートエンコーダと超解法
- Authors: Charles Bonnineau, Wassim Hamidouche, Jean-Fran\c{c}ois Travers, Naty
Sidaty, Jean-Yves Aubi\'e, Olivier Deforges
- Abstract要約: 本稿では,多目的ビデオ符号化(VVC)標準に基づく空間スケーラビリティの学習に基づく符号化手法であるCAESRを提案する。
本フレームワークでは,VVCイントラモードをベース層(BL)として符号化した低分解能信号と,高優先度(AE-HP)を用いたディープコンディショニングオートエンコーダを拡張層(EL)モデルとして検討する。
当社のソリューションは,スケーラブルなVVCのフル解像度イントラコーディングと競合するものです。
- 参考スコア(独自算出の注目度): 13.00115213941287
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we present CAESR, an hybrid learning-based coding approach for
spatial scalability based on the versatile video coding (VVC) standard. Our
framework considers a low-resolution signal encoded with VVC intra-mode as a
base-layer (BL), and a deep conditional autoencoder with hyperprior (AE-HP) as
an enhancement-layer (EL) model. The EL encoder takes as inputs both the
upscaled BL reconstruction and the original image. Our approach relies on
conditional coding that learns the optimal mixture of the source and the
upscaled BL image, enabling better performance than residual coding. On the
decoder side, a super-resolution (SR) module is used to recover high-resolution
details and invert the conditional coding process. Experimental results have
shown that our solution is competitive with the VVC full-resolution intra
coding while being scalable.
- Abstract(参考訳): 本稿では,多目的ビデオ符号化(VVC)標準に基づく空間スケーラビリティのためのハイブリッド学習に基づく符号化手法CAESRを提案する。
本フレームワークでは,VVCイントラモードをベース層(BL)として符号化した低分解能信号と,高優先度(AE-HP)を用いたディープコンディショニングオートエンコーダを拡張層(EL)モデルとして検討する。
ELエンコーダは、スケールアップされたBL再構成と原画像の両方を入力として取る。
本手法は,ソースと拡張bl画像の最適な混合を学習し,残差符号化よりも優れた性能を実現する条件付き符号化に依拠する。
デコーダ側では、高分解能の詳細を回復し、条件付きコーディングプロセスを反転させるためにスーパーレゾリューション(sr)モジュールが使用される。
実験の結果,本ソリューションはスケーラブルなvvcフルレゾリューションイントラコーディングと競合することがわかった。
関連論文リスト
- When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Standard compliant video coding using low complexity, switchable neural wrappers [8.149130379436759]
標準互換性、高性能、低復号化の複雑さを特徴とする新しいフレームワークを提案する。
私たちは、標準的なビデオをラップして、異なる解像度でビデオをエンコードする、共同最適化されたニューラルプリプロセッサとポストプロセッサのセットを使用します。
我々は、異なるアップサンプリング比を処理できる低複雑性のニューラルポストプロセッサアーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-07-10T06:36:45Z) - Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - Hierarchical B-frame Video Coding Using Two-Layer CANF without Motion
Coding [17.998825368770635]
2層拡張正規化フロー(CANF)に基づく新しいBフレーム符号化アーキテクチャを提案する。
モーションコーディングを伴わないビデオ圧縮というアイデアは,学習ビデオ符号化の新たな方向性を提供する。
提案方式の速度歪み性能は,最先端のBフレーム符号化方式であるB-CANFよりも若干低いが,他のBフレーム符号化方式よりも優れている。
論文 参考訳(メタデータ) (2023-04-05T18:36:28Z) - CANF-VC: Conditional Augmented Normalizing Flows for Video Compression [81.41594331948843]
CANF-VCは、エンドツーエンドの学習ベースのビデオ圧縮システムである。
条件付き拡張正規化フロー(ANF)に基づく。
論文 参考訳(メタデータ) (2022-07-12T04:53:24Z) - Efficient VVC Intra Prediction Based on Deep Feature Fusion and
Probability Estimation [57.66773945887832]
本稿では,フレーム内予測におけるVersatile Video Coding (VVC) の複雑性を,深層融合と確率推定の2段階のフレームワークを用いて最適化することを提案する。
特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-05-07T08:01:32Z) - Deep Learning-Based Intra Mode Derivation for Versatile Video Coding [65.96100964146062]
本稿では,Deep Learning based intra Mode Derivation (DLIMD) と呼ばれるインテリジェントイントラモード導出法を提案する。
DLIMDのアーキテクチャは、異なる量子化パラメータ設定と、非平方要素を含む可変符号化ブロックに適応するように開発されている。
提案手法は,Versatile Video Coding (VVC) テストモデルを用いて,Y, U, Vコンポーネントの平均ビットレートを2.28%, 1.74%, 2.18%削減できる。
論文 参考訳(メタデータ) (2022-04-08T13:23:59Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Transformer-based Image Compression [18.976159633970177]
Transformer-based Image Compression (TIC) アプローチは、標準変分オートエンコーダ(VAE)アーキテクチャをメインおよびハイパーエンコーダデコーダのペアで再利用する。
TICは、Deep Convolutional Neural Network(CNN)ベースの学習画像符号化(lic)メソッドや、最近承認されたVersatile Video Coding(VVC)標準のハンドクラフトルールベースの内部プロファイルなど、最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-11-12T13:13:20Z) - Super-Resolving Compressed Video in Coding Chain [27.994055823226848]
レファレンスベースのDCNNと連携する混合解像度符号化フレームワークを提案する。
この新しい符号化チェーンにおいて、基準ベースDCNNは、低解像度(LR)圧縮ビデオからデコーダ側の高解像度(HR)クリーンバージョンへの直接マッピングを学習する。
論文 参考訳(メタデータ) (2021-03-26T03:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。