論文の概要: HiNeRV: Video Compression with Hierarchical Encoding-based Neural
Representation
- arxiv url: http://arxiv.org/abs/2306.09818v3
- Date: Fri, 26 Jan 2024 15:54:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 18:24:14.391987
- Title: HiNeRV: Video Compression with Hierarchical Encoding-based Neural
Representation
- Title(参考訳): HiNeRV:階層的エンコーディングに基づくニューラル表現によるビデオ圧縮
- Authors: Ho Man Kwan, Ge Gao, Fan Zhang, Andrew Gower, David Bull
- Abstract要約: Implicit Representations (INRs) は画像やビデオのコンテントの表現や圧縮に使われてきた。
既存のINRベースの手法は、ビデオ圧縮の最先端技術に匹敵する速度性能を達成できなかった。
軽量層と階層的位置符号化を組み合わせたINRであるHiNeRVを提案する。
- 参考スコア(独自算出の注目度): 14.088444622391501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning-based video compression is currently a popular research topic,
offering the potential to compete with conventional standard video codecs. In
this context, Implicit Neural Representations (INRs) have previously been used
to represent and compress image and video content, demonstrating relatively
high decoding speed compared to other methods. However, existing INR-based
methods have failed to deliver rate quality performance comparable with the
state of the art in video compression. This is mainly due to the simplicity of
the employed network architectures, which limit their representation
capability. In this paper, we propose HiNeRV, an INR that combines light weight
layers with novel hierarchical positional encodings. We employs depth-wise
convolutional, MLP and interpolation layers to build the deep and wide network
architecture with high capacity. HiNeRV is also a unified representation
encoding videos in both frames and patches at the same time, which offers
higher performance and flexibility than existing methods. We further build a
video codec based on HiNeRV and a refined pipeline for training, pruning and
quantization that can better preserve HiNeRV's performance during lossy model
compression. The proposed method has been evaluated on both UVG and MCL-JCV
datasets for video compression, demonstrating significant improvement over all
existing INRs baselines and competitive performance when compared to
learning-based codecs (72.3% overall bit rate saving over HNeRV and 43.4% over
DCVC on the UVG dataset, measured in PSNR).
- Abstract(参考訳): 学習ベースのビデオ圧縮は、現在一般的な研究テーマであり、従来の標準ビデオコーデックと競合する可能性を提供している。
この文脈では、Inmplicit Neural Representations (INR) は以前、画像とビデオのコンテンツを表現し、圧縮するために用いられ、他の方法と比較して復号速度が比較的高い。
しかし、既存のINRベースの手法では、ビデオ圧縮の最先端技術に匹敵する性能を達成できなかった。
これは主に、その表現能力を制限する、採用されているネットワークアーキテクチャの単純さによる。
本稿では,軽量層と新しい階層的位置符号化を組み合わせたINRであるHiNeRVを提案する。
我々は,奥行き方向畳み込み層,mlp層,補間層を用いて,高容量で深く広いネットワークアーキテクチャを構築する。
HiNeRVはまた、フレームとパッチの両方でビデオをエンコードする統一表現であり、既存のメソッドよりも高いパフォーマンスと柔軟性を提供する。
さらに、HiNeRVに基づくビデオコーデックと、トレーニング、プルーニング、量子化のための洗練されたパイプラインを構築し、失われたモデル圧縮時のHiNeRVのパフォーマンスをよりよく保存する。
提案手法は,ビデオ圧縮のためのUVGデータセットとMCL-JCVデータセットの両方で評価され,学習ベースコーデックと比較して既存のINRのベースラインと競合性能(HNeRVで72.3%,UVGで43.4%)よりも大幅に向上した。
関連論文リスト
- NVRC: Neural Video Representation Compression [13.131842990481038]
我々は、新しいINRベースのビデオ圧縮フレームワーク、Neural Video Representation Compression (NVRC)を提案する。
NVRCは初めて、INRベースのビデオをエンドツーエンドで最適化することができる。
実験の結果,NVRCは従来のベンチマークエントロピーよりも優れていた。
論文 参考訳(メタデータ) (2024-09-11T16:57:12Z) - PNVC: Towards Practical INR-based Video Compression [14.088444622391501]
自動エンコーダと過度に適合したソリューションを革新的に組み合わせた新しいINRベースのコーディングフレームワークであるPNVCを提案する。
PNVCはHEVC HM 18.0(LD)に対して35%以上のBDレートの節約を実現している。
論文 参考訳(メタデータ) (2024-09-02T05:31:11Z) - NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。
ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。
コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-04-05T17:55:04Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - NIRVANA: Neural Implicit Representations of Videos with Adaptive
Networks and Autoregressive Patch-wise Modeling [37.51397331485574]
Inlicit Neural Representations (INR)は、最近、高品質なビデオ圧縮のための強力なツールであることが示されている。
これらの手法は、より長いビデオや高解像度にスケールしない固定されたアーキテクチャを持つ。
我々は,動画をフレーム群として扱うNIRVANAを提案し,パッチワイズ予測を行うグループ毎に個別のネットワークを適合させる。
論文 参考訳(メタデータ) (2022-12-30T08:17:02Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Learning for Video Compression with Hierarchical Quality and Recurrent
Enhancement [164.7489982837475]
本稿では,階層型ビデオ圧縮(HLVC)手法を提案する。
我々のHLVCアプローチでは、エンコーダ側とデコーダ側の低品質フレームの圧縮と強化を容易にするため、階層的品質は符号化効率の恩恵を受ける。
論文 参考訳(メタデータ) (2020-03-04T09:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。