論文の概要: Learning Cross-Scale Prediction for Efficient Neural Video Compression
- arxiv url: http://arxiv.org/abs/2112.13309v1
- Date: Sun, 26 Dec 2021 03:12:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 17:41:32.283548
- Title: Learning Cross-Scale Prediction for Efficient Neural Video Compression
- Title(参考訳): 効率的なニューラルビデオ圧縮のためのクロススケール予測の学習
- Authors: Zongyu Guo, Runsen Feng, Zhizheng Zhang, Xin Jin, Zhibo Chen
- Abstract要約: 低レイテンシモードのUVGデータセット上のsRGB PSNRの観点から、最新のコーディング標準であるH.266/VVCと競合する最初のニューラルビデオを示す。
そこで我々は,より効率的な動き補償を実現する,新しいクロススケール予測モジュールを提案する。
- 参考スコア(独自算出の注目度): 30.051859347293856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present the first neural video codec that can compete with
the latest coding standard H.266/VVC in terms of sRGB PSNR on UVG dataset for
the low-latency mode. Existing neural hybrid video coding approaches rely on
optical flow or Gaussian-scale flow for prediction, which cannot support
fine-grained adaptation to diverse motion content. Towards more
content-adaptive prediction, we propose a novel cross-scale prediction module
that achieves more effective motion compensation. Specifically, on the one
hand, we produce a reference feature pyramid as prediction sources, then
transmit cross-scale flows that leverage the feature scale to control the
precision of prediction. On the other hand, we introduce the mechanism of
weighted prediction into the scenario of prediction with a single reference
frame, where cross-scale weight maps are transmitted to synthesize a fine
prediction result. In addition to the cross-scale prediction module, we further
propose a multi-stage quantization strategy, which improves the rate-distortion
performance with no extra computational penalty during inference. We show the
encouraging performance of our efficient neural video codec (ENVC) on several
common benchmark datasets and analyze in detail the effectiveness of every
important component.
- Abstract(参考訳): 本稿では,低遅延モードのUVGデータセット上で,SRGB PSNRを用いて最新の符号化標準H.266/VVCと競合する最初のニューラルビデオコーデックを提案する。
既存のニューラルハイブリッドビデオ符号化手法は、様々なモーションコンテンツへのきめ細かい適応をサポートできない、光学フローやガウススケールフローに依存している。
よりコンテンツ適応型予測に向けて,より効果的な動作補償を実現する新しいクロススケール予測モジュールを提案する。
具体的には,参照特徴ピラミッドを予測源として生成し,特徴量を利用したクロススケールフローを送信して予測精度を制御する。
一方,重み付き予測のメカニズムを,単一の参照フレームを用いた予測のシナリオに導入し,クロススケールの重み付きマップを送信し,詳細な予測結果を合成する。
クロススケール予測モジュールに加えて, 推定中に余分な計算ペナルティを伴わずに, レート分散性能を向上させる多段階量子化戦略も提案する。
我々は,複数のベンチマークデータセット上で,効率的なニューラルビデオコーデック(ENVC)の性能向上を示すとともに,すべての重要なコンポーネントの有効性を詳細に分析する。
関連論文リスト
- Neural Conformal Control for Time Series Forecasting [54.96087475179419]
非定常環境における適応性を高める時系列のニューラルネットワーク共形予測手法を提案する。
提案手法は,ニューラルネットワークエンコーダを用いた補助的マルチビューデータを活用することにより,望ましい対象範囲を達成するために設計されたニューラルネットワークコントローラとして機能する。
予測間隔の整合性に優れたキャリブレーションを組み合わさった手法は, 適用範囲と確率的精度の大幅な向上を実証的に示す。
論文 参考訳(メタデータ) (2024-12-24T03:56:25Z) - Multi-Scale Feature Prediction with Auxiliary-Info for Neural Image Compression [13.076563599765176]
本稿では,ニューラルビデオ圧縮にインスパイアされた補助粗いネットワークと主ネットワークからなる新しい予測構造を導入する。
我々のモデルは、他のニューラル画像圧縮モデルより優れており、Tecnickデータセット上のVVCよりも19.49%高い速度歪み性能を実現している。
論文 参考訳(メタデータ) (2024-09-19T12:41:53Z) - Prediction and Reference Quality Adaptation for Learned Video Compression [54.58691829087094]
時間予測はビデオ圧縮において最も重要な技術の一つである。
従来のビデオコーデックは、予測品質と基準品質に応じて最適な符号化モードを適応的に決定する。
本稿では,信頼性に基づく予測品質適応(PQA)モジュールと基準品質適応(RQA)モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-20T09:03:26Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Predictive Coding Based Multiscale Network with Encoder-Decoder LSTM for
Video Prediction [1.2537993038844142]
将来のビデオフレーム予測のためのマルチスケール予測符号化モデルを提案する。
我々のモデルは、より高レベルなニューロンが粗い予測(より低解像度)を生成するマルチスケールアプローチ(粗から微細)を採用している。
本稿では,長期予測における予測誤差の蓄積を軽減するためのトレーニング戦略のいくつかの改善を提案する。
論文 参考訳(メタデータ) (2022-12-22T12:15:37Z) - Coarse-to-fine Deep Video Coding with Hyperprior-guided Mode Prediction [50.361427832256524]
動き補償を改善するために,粗大なC2F(Deep Video compression framework)を提案する。
我々のC2Fフレームワークは、ビットコストを大幅に増大させることなく、より良い動き補償結果を得ることができる。
論文 参考訳(メタデータ) (2022-06-15T11:38:53Z) - Neural Network based Inter bi-prediction Blending [8.815673539598816]
本稿では,ビデオ符号化におけるバイディディクションを改善するための学習的手法を提案する。
この文脈では、ブレンディング操作をさらに改善する単純なニューラルネットワークを導入する。
テストが行われ、ネットワークサイズが10k未満のネットワークサイズに対して、ランダムアクセス構成でBDレートが-1.4%改善された。
論文 参考訳(メタデータ) (2022-01-26T13:57:48Z) - Self-Supervised Learning of Perceptually Optimized Block Motion
Estimates for Video Compression [50.48504867843605]
多段階畳み込みニューラルネットワークを用いた探索自由ブロック運動推定フレームワークを提案する。
動作補償フレームの知覚品質を最適化するために,マルチスケール構造類似度(MS-SSIM)損失関数をデプロイする。
論文 参考訳(メタデータ) (2021-10-05T03:38:43Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - Chroma Intra Prediction with attention-based CNN architectures [15.50693711359313]
本稿では,クロスコンポーネント・イントラプレディションのためのニューラルネットワークアーキテクチャを提案する。
このネットワークは、参照と予測されたサンプルの間の空間関係をモデル化するために、新しいアテンションモジュールを使用する。
論文 参考訳(メタデータ) (2020-06-27T12:11:17Z) - Deep Learning for Content-based Personalized Viewport Prediction of
360-Degree VR Videos [72.08072170033054]
本稿では、位置データとビデオフレームコンテンツを活用して、将来の頭部の動きを予測するためのディープラーニングネットワークを提案する。
このニューラルネットワークに入力されるデータを最適化するために、このモデルのために、データサンプル率、データ削減、長期予測長についても検討する。
論文 参考訳(メタデータ) (2020-03-01T07:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。