論文の概要: Neural Video Compression with Feature Modulation
- arxiv url: http://arxiv.org/abs/2402.17414v2
- Date: Thu, 29 Feb 2024 05:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 11:11:39.233264
- Title: Neural Video Compression with Feature Modulation
- Title(参考訳): 特徴変調によるニューラルビデオ圧縮
- Authors: Jiahao Li, Bin Li, Yan Lu
- Abstract要約: 条件付き符号化ベースニューラルビデオ(NVC)は、一般的に使用される残留符号化ベースニューラルビデオ(NVC)よりも優れていることを示す
本稿では,特徴変調による2つの重要な問題を解くための,条件付き符号化に基づく強力なNVCを提案する。
- 参考スコア(独自算出の注目度): 28.105412445443697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emerging conditional coding-based neural video codec (NVC) shows
superiority over commonly-used residual coding-based codec and the latest NVC
already claims to outperform the best traditional codec. However, there still
exist critical problems blocking the practicality of NVC. In this paper, we
propose a powerful conditional coding-based NVC that solves two critical
problems via feature modulation. The first is how to support a wide quality
range in a single model. Previous NVC with this capability only supports about
3.8 dB PSNR range on average. To tackle this limitation, we modulate the latent
feature of the current frame via the learnable quantization scaler. During the
training, we specially design the uniform quantization parameter sampling
mechanism to improve the harmonization of encoding and quantization. This
results in a better learning of the quantization scaler and helps our NVC
support about 11.4 dB PSNR range. The second is how to make NVC still work
under a long prediction chain. We expose that the previous SOTA NVC has an
obvious quality degradation problem when using a large intra-period setting. To
this end, we propose modulating the temporal feature with a periodically
refreshing mechanism to boost the quality. %Besides solving the above two
problems, we also design a single model that can support both RGB and YUV
colorspaces. Notably, under single intra-frame setting, our codec can achieve
29.7\% bitrate saving over previous SOTA NVC with 16\% MACs reduction. Our
codec serves as a notable landmark in the journey of NVC evolution. The codes
are at https://github.com/microsoft/DCVC.
- Abstract(参考訳): 新たな条件付きコーディングベースのニューラルビデオコーデック(NVC)は、一般的に使用されている残留コーディングベースのコーデックよりも優れている。
しかし、NVCの実用性を阻害する重大な問題がある。
本稿では,特徴変調による2つの重要な問題を解く,条件付き符号化に基づく強力なNVCを提案する。
ひとつは、単一のモデルで幅広い品質範囲をサポートする方法です。
以前のNVCでは、平均で約3.8dBのPSNRしかサポートしていない。
この制限に対処するため、学習可能な量子化スケーラを用いて現在のフレームの潜時特性を変調する。
本研究では,符号化と量子化の調和を改善するために,一様量子化パラメータサンプリング機構を特別に設計する。
これにより、量子化スケーラの学習が向上し、NVCが約11.4dBのPSNRの範囲をサポートするのに役立ちます。
2つ目は、NVCを長い予測チェーンの下で機能させる方法だ。
我々は, 従来のSOTA NVCは, 時間内設定が大きい場合に, 明らかに品質劣化の問題があることを明らかにした。
そこで本研究では,品質向上のための周期的リフレッシュ機構による時間的特徴の変調を提案する。
% 以上の2つの問題を解決する一方で,RGB と YUV のカラースペースをサポートする単一モデルも設計する。
特に,フレーム内の単一設定では,従来のSOTA NVCよりも29.7\%のビットレートを削減でき,MACは16\%減少する。
私たちのコーデックは、NVC進化の旅で目立ったランドマークとなります。
コードはhttps://github.com/microsoft/DCVCにある。
関連論文リスト
- PNVC: Towards Practical INR-based Video Compression [14.088444622391501]
自動エンコーダと過度に適合したソリューションを革新的に組み合わせた新しいINRベースのコーディングフレームワークであるPNVCを提案する。
PNVCはHEVC HM 18.0(LD)に対して35%以上のBDレートの節約を実現している。
論文 参考訳(メタデータ) (2024-09-02T05:31:11Z) - Prediction and Reference Quality Adaptation for Learned Video Compression [54.58691829087094]
本研究では,空間的およびチャネル的予測品質差の明確な識別を行うために,信頼度に基づく予測品質適応(PQA)モジュールを提案する。
また、参照品質適応(RQA)モジュールと関連する繰り返し学習戦略を提案し、様々な参照品質のための動的空間変化フィルタを提供する。
論文 参考訳(メタデータ) (2024-06-20T09:03:26Z) - NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。
ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。
コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-04-05T17:55:04Z) - Neural Video Compression with Diverse Contexts [25.96187914295921]
本稿では,時間次元と空間次元の両方において,文脈の多様性を高めることを提案する。
実験の結果,従来のSOTA NVCよりも23.5%の節約が得られた。
論文 参考訳(メタデータ) (2023-02-28T08:35:50Z) - CNeRV: Content-adaptive Neural Representation for Visual Data [54.99373641890767]
本稿では、自動エンコーダの一般化性と暗黙的表現の単純さとコンパクトさを組み合わせた、コンテンツ適応型埋め込み(CNeRV)によるニューラルビジュアル表現を提案する。
我々は、トレーニング中にスキップされたフレーム(見えない画像)をはるかに上回りながら、トレーニング中に見られるフレームの再構築作業において、最先端の暗黙のニューラル表現であるNERVのパフォーマンスを一致させる。
同じ遅延コード長と類似のモデルサイズで、CNeRVは、見えていない画像と見えない画像の両方の再構成においてオートエンコーダより優れている。
論文 参考訳(メタデータ) (2022-11-18T18:35:43Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Neural Video Coding using Multiscale Motion Compensation and
Spatiotemporal Context Model [45.46660511313426]
エンド・ツー・エンドのディープ・ニューラル・ビデオ・コーディング・フレームワーク(NVC)を提案する。
フレーム内画素、フレーム間運動、フレーム間補償残差の相関を利用するために、共同空間および時間的事前集約(PA)を備えた可変オートエンコーダ(VAE)を使用する。
NVCは低遅延因果条件で評価され、H.265/HEVC、H.264/AVC、その他の学習ビデオ圧縮法と比較される。
論文 参考訳(メタデータ) (2020-07-09T06:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。