論文の概要: Learning Cross-Scale Prediction for Efficient Neural Video Compression
- arxiv url: http://arxiv.org/abs/2112.13309v1
- Date: Sun, 26 Dec 2021 03:12:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 17:41:32.283548
- Title: Learning Cross-Scale Prediction for Efficient Neural Video Compression
- Title(参考訳): 効率的なニューラルビデオ圧縮のためのクロススケール予測の学習
- Authors: Zongyu Guo, Runsen Feng, Zhizheng Zhang, Xin Jin, Zhibo Chen
- Abstract要約: 低レイテンシモードのUVGデータセット上のsRGB PSNRの観点から、最新のコーディング標準であるH.266/VVCと競合する最初のニューラルビデオを示す。
そこで我々は,より効率的な動き補償を実現する,新しいクロススケール予測モジュールを提案する。
- 参考スコア(独自算出の注目度): 30.051859347293856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present the first neural video codec that can compete with
the latest coding standard H.266/VVC in terms of sRGB PSNR on UVG dataset for
the low-latency mode. Existing neural hybrid video coding approaches rely on
optical flow or Gaussian-scale flow for prediction, which cannot support
fine-grained adaptation to diverse motion content. Towards more
content-adaptive prediction, we propose a novel cross-scale prediction module
that achieves more effective motion compensation. Specifically, on the one
hand, we produce a reference feature pyramid as prediction sources, then
transmit cross-scale flows that leverage the feature scale to control the
precision of prediction. On the other hand, we introduce the mechanism of
weighted prediction into the scenario of prediction with a single reference
frame, where cross-scale weight maps are transmitted to synthesize a fine
prediction result. In addition to the cross-scale prediction module, we further
propose a multi-stage quantization strategy, which improves the rate-distortion
performance with no extra computational penalty during inference. We show the
encouraging performance of our efficient neural video codec (ENVC) on several
common benchmark datasets and analyze in detail the effectiveness of every
important component.
- Abstract(参考訳): 本稿では,低遅延モードのUVGデータセット上で,SRGB PSNRを用いて最新の符号化標準H.266/VVCと競合する最初のニューラルビデオコーデックを提案する。
既存のニューラルハイブリッドビデオ符号化手法は、様々なモーションコンテンツへのきめ細かい適応をサポートできない、光学フローやガウススケールフローに依存している。
よりコンテンツ適応型予測に向けて,より効果的な動作補償を実現する新しいクロススケール予測モジュールを提案する。
具体的には,参照特徴ピラミッドを予測源として生成し,特徴量を利用したクロススケールフローを送信して予測精度を制御する。
一方,重み付き予測のメカニズムを,単一の参照フレームを用いた予測のシナリオに導入し,クロススケールの重み付きマップを送信し,詳細な予測結果を合成する。
クロススケール予測モジュールに加えて, 推定中に余分な計算ペナルティを伴わずに, レート分散性能を向上させる多段階量子化戦略も提案する。
我々は,複数のベンチマークデータセット上で,効率的なニューラルビデオコーデック(ENVC)の性能向上を示すとともに,すべての重要なコンポーネントの有効性を詳細に分析する。
関連論文リスト
- Multi-Scale Feature Prediction with Auxiliary-Info for Neural Image Compression [13.076563599765176]
本稿では,ニューラルビデオ圧縮にインスパイアされた補助粗いネットワークと主ネットワークからなる新しい予測構造を導入する。
我々のモデルは、他のニューラル画像圧縮モデルより優れており、Tecnickデータセット上のVVCよりも19.49%高い速度歪み性能を実現している。
論文 参考訳(メタデータ) (2024-09-19T12:41:53Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Predictive Coding Based Multiscale Network with Encoder-Decoder LSTM for
Video Prediction [1.2537993038844142]
将来のビデオフレーム予測のためのマルチスケール予測符号化モデルを提案する。
我々のモデルは、より高レベルなニューロンが粗い予測(より低解像度)を生成するマルチスケールアプローチ(粗から微細)を採用している。
本稿では,長期予測における予測誤差の蓄積を軽減するためのトレーニング戦略のいくつかの改善を提案する。
論文 参考訳(メタデータ) (2022-12-22T12:15:37Z) - Coarse-to-fine Deep Video Coding with Hyperprior-guided Mode Prediction [50.361427832256524]
動き補償を改善するために,粗大なC2F(Deep Video compression framework)を提案する。
我々のC2Fフレームワークは、ビットコストを大幅に増大させることなく、より良い動き補償結果を得ることができる。
論文 参考訳(メタデータ) (2022-06-15T11:38:53Z) - Hybrid Predictive Coding: Inferring, Fast and Slow [62.997667081978825]
本稿では,反復型と償却型の両方を原則的に組み合わせたハイブリッド予測符号化ネットワークを提案する。
我々は,本モデルが本質的に不確実性に敏感であり,最小計算費用を用いて正確な信念を得るためにバランスを適応的にバランスさせることを実証した。
論文 参考訳(メタデータ) (2022-04-05T12:52:45Z) - Neural Network based Inter bi-prediction Blending [8.815673539598816]
本稿では,ビデオ符号化におけるバイディディクションを改善するための学習的手法を提案する。
この文脈では、ブレンディング操作をさらに改善する単純なニューラルネットワークを導入する。
テストが行われ、ネットワークサイズが10k未満のネットワークサイズに対して、ランダムアクセス構成でBDレートが-1.4%改善された。
論文 参考訳(メタデータ) (2022-01-26T13:57:48Z) - Self-Supervised Learning of Perceptually Optimized Block Motion
Estimates for Video Compression [50.48504867843605]
多段階畳み込みニューラルネットワークを用いた探索自由ブロック運動推定フレームワークを提案する。
動作補償フレームの知覚品質を最適化するために,マルチスケール構造類似度(MS-SSIM)損失関数をデプロイする。
論文 参考訳(メタデータ) (2021-10-05T03:38:43Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - Predicting Deep Neural Network Generalization with Perturbation Response
Curves [58.8755389068888]
トレーニングネットワークの一般化能力を評価するための新しいフレームワークを提案する。
具体的には,一般化ギャップを正確に予測するための2つの新しい尺度を提案する。
PGDL(Predicting Generalization in Deep Learning)のNeurIPS 2020コンペティションにおけるタスクの大部分について、現在の最先端の指標よりも優れた予測スコアを得る。
論文 参考訳(メタデータ) (2021-06-09T01:37:36Z) - Chroma Intra Prediction with attention-based CNN architectures [15.50693711359313]
本稿では,クロスコンポーネント・イントラプレディションのためのニューラルネットワークアーキテクチャを提案する。
このネットワークは、参照と予測されたサンプルの間の空間関係をモデル化するために、新しいアテンションモジュールを使用する。
論文 参考訳(メタデータ) (2020-06-27T12:11:17Z) - Deep Learning for Content-based Personalized Viewport Prediction of
360-Degree VR Videos [72.08072170033054]
本稿では、位置データとビデオフレームコンテンツを活用して、将来の頭部の動きを予測するためのディープラーニングネットワークを提案する。
このニューラルネットワークに入力されるデータを最適化するために、このモデルのために、データサンプル率、データ削減、長期予測長についても検討する。
論文 参考訳(メタデータ) (2020-03-01T07:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。