論文の概要: Scalable Neural Video Representations with Learnable Positional Features
- arxiv url: http://arxiv.org/abs/2210.06823v1
- Date: Thu, 13 Oct 2022 08:15:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 14:47:30.725144
- Title: Scalable Neural Video Representations with Learnable Positional Features
- Title(参考訳): 学習可能な位置特徴を持つスケーラブルなニューラルビデオ表現
- Authors: Subin Kim, Sihyun Yu, Jaeho Lee, Jinwoo Shin
- Abstract要約: 我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
- 参考スコア(独自算出の注目度): 73.51591757726493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Succinct representation of complex signals using coordinate-based neural
representations (CNRs) has seen great progress, and several recent efforts
focus on extending them for handling videos. Here, the main challenge is how to
(a) alleviate a compute-inefficiency in training CNRs to (b) achieve
high-quality video encoding while (c) maintaining the parameter-efficiency. To
meet all requirements (a), (b), and (c) simultaneously, we propose neural video
representations with learnable positional features (NVP), a novel CNR by
introducing "learnable positional features" that effectively amortize a video
as latent codes. Specifically, we first present a CNR architecture based on
designing 2D latent keyframes to learn the common video contents across each
spatio-temporal axis, which dramatically improves all of those three
requirements. Then, we propose to utilize existing powerful image and video
codecs as a compute-/memory-efficient compression procedure of latent codes. We
demonstrate the superiority of NVP on the popular UVG benchmark; compared with
prior arts, NVP not only trains 2 times faster (less than 5 minutes) but also
exceeds their encoding quality as 34.07$\rightarrow$34.57 (measured with the
PSNR metric), even using $>$8 times fewer parameters. We also show intriguing
properties of NVP, e.g., video inpainting, video frame interpolation, etc.
- Abstract(参考訳): 座標ベースニューラル表現(CNR)を用いた複雑な信号の簡潔な表現は大きな進歩を遂げており、ビデオを扱うためにそれらを拡張することに注力している。
ここでの最大の課題は、どのようにして
(a)CNRを訓練する際の計算効率を緩和する
(b)高品質な映像符号化を実現する
(c)パラメータ効率を維持する。
すべての要件を満たすために
(a)
(b)及び
(c)同時に,学習可能な位置特徴を持つニューラルビデオ表現(NVP)を提案し,映像を潜時符号として効果的に記憶する「学習可能な位置特徴」を導入し,新しいCNRを提案する。
具体的には,まず2次元潜在鍵フレームの設計に基づくCNRアーキテクチャを提案し,各時空間軸間の共通映像内容の学習を行い,これら3つの要件を劇的に改善する。
次に,既存の強力な画像およびビデオコーデックを,潜在コードの計算/メモリ効率の高い圧縮手順として利用する。
我々は、人気のあるuvgベンチマークにおいて、nvpの優位性を実証する: 先行技術と比較して、nvpは、2倍の速さ(5分未満)をトレーニングするだけでなく、そのエンコーディング品質を34.07$\rightarrow$34.57(psnrメトリックによる測定)で超えている。
また,NVPの興味深い特性として,例えば,ビデオインペイント,ビデオフレーム補間などを示す。
関連論文リスト
- NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - Progressive Fourier Neural Representation for Sequential Video
Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。
本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。
我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文 参考訳(メタデータ) (2023-06-20T06:02:19Z) - HiNeRV: Video Compression with Hierarchical Encoding-based Neural
Representation [14.088444622391501]
Implicit Representations (INRs) は画像やビデオのコンテントの表現や圧縮に使われてきた。
既存のINRベースの手法は、ビデオ圧縮の最先端技術に匹敵する速度性能を達成できなかった。
軽量層と階層的位置符号化を組み合わせたINRであるHiNeRVを提案する。
論文 参考訳(メタデータ) (2023-06-16T12:59:52Z) - HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。
ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。
コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-04-05T17:55:04Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。