論文の概要: Immersive Video Compression using Implicit Neural Representations
- arxiv url: http://arxiv.org/abs/2402.01596v2
- Date: Fri, 23 Feb 2024 12:26:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 17:17:37.430326
- Title: Immersive Video Compression using Implicit Neural Representations
- Title(参考訳): 暗黙的神経表現を用いた没入型ビデオ圧縮
- Authors: Ho Man Kwan, Fan Zhang, Andrew Gower, David Bull
- Abstract要約: MV-HiNeRVは最先端のINRベースのビデオHiNeRVの拡張版である。
ビュー毎に異なる機能グリッドのグループを学習するためにモデルを修正し、学習したネットワークパラメータをすべてのビューで共有しました。
提案手法は,MPEG Immersive Video (MIV) Common Test Conditionsにおいて,マルチビューテクスチャと深度ビデオの圧縮に用いる。
その結果、MV-HiNeRV は TMIV よりも 72.33% に優れた性能を示した。
- 参考スコア(独自算出の注目度): 4.13899730757205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work on implicit neural representations (INRs) has evidenced their
potential for efficiently representing and encoding conventional video content.
In this paper we, for the first time, extend their application to immersive
(multi-view) videos, by proposing MV-HiNeRV, a new INR-based immersive video
codec. MV-HiNeRV is an enhanced version of a state-of-the-art INR-based video
codec, HiNeRV, which was developed for single-view video compression. We have
modified the model to learn a different group of feature grids for each view,
and share the learnt network parameters among all views. This enables the model
to effectively exploit the spatio-temporal and the inter-view redundancy that
exists within multi-view videos. The proposed codec was used to compress
multi-view texture and depth video sequences in the MPEG Immersive Video (MIV)
Common Test Conditions, and tested against the MIV Test model (TMIV) that uses
the VVenC video codec. The results demonstrate the superior performance of
MV-HiNeRV, with significant coding gains (up to 72.33\%) over TMIV. The
implementation of MV-HiNeRV is published for further development and
evaluation.
- Abstract(参考訳): 暗黙的ニューラルネットワーク表現(inrs)に関する最近の研究は、従来のビデオコンテンツを効率的に表現しエンコーディングする可能性を示している。
本稿では,新しいINRベースの没入型ビデオコーデックであるMV-HiNeRVを提案することにより,初めて没入型(マルチビュー)ビデオにアプリケーションを拡張した。
MV-HiNeRVは、シングルビュービデオ圧縮用に開発された最先端のINRベースのビデオコーデック、HiNeRVの拡張版である。
ビュー毎に異なる機能グリッドのグループを学習するためにモデルを修正し、学習したネットワークパラメータをすべてのビューで共有しました。
これにより、モデルがマルチビュービデオに存在する時空間とビュー間の冗長性を効果的に活用することができる。
提案コーデックはMPEG Immersive Video (MIV) Common Test Conditionsのマルチビューテクスチャと深度ビデオシーケンスを圧縮するために用いられ、VVenCビデオコーデックを用いたMIVテストモデル(TMIV)に対してテストされた。
その結果、MV-HiNeRV は TMIV よりも 72.33\% 高い符号ゲイン(最大72.33\%)で優れた性能を示した。
MV-HiNeRVの実装は、さらなる開発と評価のために公表されている。
関連論文リスト
- NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - HiNeRV: Video Compression with Hierarchical Encoding-based Neural
Representation [14.088444622391501]
Implicit Representations (INRs) は画像やビデオのコンテントの表現や圧縮に使われてきた。
既存のINRベースの手法は、ビデオ圧縮の最先端技術に匹敵する速度性能を達成できなかった。
軽量層と階層的位置符号化を組み合わせたINRであるHiNeRVを提案する。
論文 参考訳(メタデータ) (2023-06-16T12:59:52Z) - DNeRV: Modeling Inherent Dynamics via Difference Neural Representation
for Videos [53.077189668346705]
映像の差分表現(eRV)
我々はこれを制限関数の適合性とフレーム差の重要性の観点から分析する。
DNeRVは最先端のニューラル圧縮アプローチと競合する結果を得る。
論文 参考訳(メタデータ) (2023-04-13T13:53:49Z) - HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。
ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。
コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-04-05T17:55:04Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Perceptual Learned Video Compression with Recurrent Conditional GAN [158.0726042755]
本稿では, PVC (Perceptual Learned Video Compression) アプローチを提案する。
PLVCは低ビットレートで映像を知覚品質に圧縮することを学ぶ。
ユーザスタディでは、最新の学習ビデオ圧縮手法と比較して、PLVCの優れた知覚性能をさらに検証している。
論文 参考訳(メタデータ) (2021-09-07T13:36:57Z) - Learning to Compress Videos without Computing Motion [39.46212197928986]
動き推定を必要としない新しいディープラーニングビデオ圧縮アーキテクチャを提案する。
本フレームワークでは,映像のフレーム差分を映像表現として利用することにより,映像の動きに固有の規則性を利用する。
実験の結果,Motionless VIdeo Codec (MOVI-Codec) と呼ばれる圧縮モデルは,動きを計算せずに効率的に動画を圧縮する方法を学習することがわかった。
論文 参考訳(メタデータ) (2020-09-29T15:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。