論文の概要: NIRVANA: Neural Implicit Representations of Videos with Adaptive
Networks and Autoregressive Patch-wise Modeling
- arxiv url: http://arxiv.org/abs/2212.14593v1
- Date: Fri, 30 Dec 2022 08:17:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 16:58:52.469943
- Title: NIRVANA: Neural Implicit Representations of Videos with Adaptive
Networks and Autoregressive Patch-wise Modeling
- Title(参考訳): NIRVANA: 適応型ネットワークによる映像のニューラルインシシタン表現と自己回帰的パッチワイドモデリング
- Authors: Shishira R Maiya, Sharath Girish, Max Ehrlich, Hanyu Wang, Kwot Sin
Lee, Patrick Poirson, Pengxiang Wu, Chen Wang, Abhinav Shrivastava
- Abstract要約: Inlicit Neural Representations (INR)は、最近、高品質なビデオ圧縮のための強力なツールであることが示されている。
これらの手法は、より長いビデオや高解像度にスケールしない固定されたアーキテクチャを持つ。
我々は,動画をフレーム群として扱うNIRVANAを提案し,パッチワイズ予測を行うグループ毎に個別のネットワークを適合させる。
- 参考スコア(独自算出の注目度): 37.51397331485574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implicit Neural Representations (INR) have recently shown to be powerful tool
for high-quality video compression. However, existing works are limiting as
they do not explicitly exploit the temporal redundancy in videos, leading to a
long encoding time. Additionally, these methods have fixed architectures which
do not scale to longer videos or higher resolutions. To address these issues,
we propose NIRVANA, which treats videos as groups of frames and fits separate
networks to each group performing patch-wise prediction. This design shares
computation within each group, in the spatial and temporal dimensions,
resulting in reduced encoding time of the video. The video representation is
modeled autoregressively, with networks fit on a current group initialized
using weights from the previous group's model. To further enhance efficiency,
we perform quantization of the network parameters during training, requiring no
post-hoc pruning or quantization. When compared with previous works on the
benchmark UVG dataset, NIRVANA improves encoding quality from 37.36 to 37.70
(in terms of PSNR) and the encoding speed by 12X, while maintaining the same
compression rate. In contrast to prior video INR works which struggle with
larger resolution and longer videos, we show that our algorithm is highly
flexible and scales naturally due to its patch-wise and autoregressive designs.
Moreover, our method achieves variable bitrate compression by adapting to
videos with varying inter-frame motion. NIRVANA achieves 6X decoding speed and
scales well with more GPUs, making it practical for various deployment
scenarios.
- Abstract(参考訳): Inlicit Neural Representations (INR)は、最近、高品質なビデオ圧縮のための強力なツールであることが示されている。
しかし、ビデオの時間的冗長性を明示的に活用しないため、既存の作品には制限があるため、エンコーディング時間が長い。
さらに、これらの手法には、より長いビデオや高解像度にスケールしない固定されたアーキテクチャがある。
これらの問題に対処するために、NIRVANAを提案する。これは、動画をフレームのグループとして扱い、パッチワイズ予測を行う各グループに個別のネットワークを適合させる。
この設計は、各グループ内の計算を空間的および時間的次元で共有し、ビデオのエンコーディング時間を短縮する。
ビデオ表現は自己回帰的にモデル化され、ネットワークは前のグループのモデルからの重みを使って初期化された現在のグループに適合する。
さらに効率を高めるために,トレーニング中にネットワークパラメータの量子化を行い,ポストホックな刈り取りや量子化を必要としない。
従来のUVGデータセットと比較すると、NIRVANAは同じ圧縮速度を維持しつつ、符号化品質を37.36から37.70(PSNR)に改善し、符号化速度を12倍に向上させる。
より高解像度で長時間のビデオに苦しむ以前のビデオINRとは対照的に,我々のアルゴリズムはパッチワイドで自己回帰的な設計のため,非常に柔軟で自然にスケールする。
さらに,フレーム間移動の異なる動画に適応することで,可変ビットレート圧縮を実現する。
nirvanaは、より多くのgpuで6倍のデコード速度とスケールを実現し、様々なデプロイシナリオに実用的です。
関連論文リスト
- NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - HiNeRV: Video Compression with Hierarchical Encoding-based Neural
Representation [14.088444622391501]
Implicit Representations (INRs) は画像やビデオのコンテントの表現や圧縮に使われてきた。
既存のINRベースの手法は、ビデオ圧縮の最先端技術に匹敵する速度性能を達成できなかった。
軽量層と階層的位置符号化を組み合わせたINRであるHiNeRVを提案する。
論文 参考訳(メタデータ) (2023-06-16T12:59:52Z) - HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。
ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。
コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-04-05T17:55:04Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - FFNeRV: Flow-Guided Frame-Wise Neural Representations for Videos [5.958701846880935]
ビデオ中のフレーム間の時間的冗長性を利用するために,フロー情報をフレームワイズ表現に組み込む新しい手法であるFFNeRVを提案する。
モデル圧縮技術により、FFNeRVは広く使われている標準ビデオコーデック(H.264とHEVC)より優れ、最先端のビデオ圧縮アルゴリズムと同等に動作する。
論文 参考訳(メタデータ) (2022-12-23T12:51:42Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Exploring Long- and Short-Range Temporal Information for Learned Video
Compression [54.91301930491466]
圧縮性能を高めるために,映像コンテンツの特徴を活かし,時間的情報を探究することに注力する。
本稿では,画像群(GOP)内で画像の推測中に連続的に更新できる時間前処理を提案する。
この場合、時間的事前は、現在のGOP内のすべてのデコードされた画像の貴重な時間的情報を含む。
本稿では,マルチスケール補償を実現する階層構造を設計する。
論文 参考訳(メタデータ) (2022-08-07T15:57:18Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。