論文の概要: E-NeRV: Expedite Neural Video Representation with Disentangled
Spatial-Temporal Context
- arxiv url: http://arxiv.org/abs/2207.08132v1
- Date: Sun, 17 Jul 2022 10:16:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 17:23:15.965260
- Title: E-NeRV: Expedite Neural Video Representation with Disentangled
Spatial-Temporal Context
- Title(参考訳): E-NeRV: 空間的空間的文脈を考慮した高速なニューラルビデオ表現
- Authors: Zizhang Li, Mengmeng Wang, Huaijin Pi, Kechun Xu, Jianbiao Mei, Yong
Liu
- Abstract要約: 本稿では,画像の暗黙的表現を空間的・時間的コンテキストに分解することで,NeRVを劇的に高速化するE-NeRVを提案する。
実験により,本手法はパラメータを少なくして大幅な性能向上が可能であり,コンバージェンスにおける速度が8倍を超えることが確認された。
- 参考スコア(独自算出の注目度): 14.549945320069892
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, the image-wise implicit neural representation of videos, NeRV, has
gained popularity for its promising results and swift speed compared to regular
pixel-wise implicit representations. However, the redundant parameters within
the network structure can cause a large model size when scaling up for
desirable performance. The key reason of this phenomenon is the coupled
formulation of NeRV, which outputs the spatial and temporal information of
video frames directly from the frame index input. In this paper, we propose
E-NeRV, which dramatically expedites NeRV by decomposing the image-wise
implicit neural representation into separate spatial and temporal context.
Under the guidance of this new formulation, our model greatly reduces the
redundant model parameters, while retaining the representation ability. We
experimentally find that our method can improve the performance to a large
extent with fewer parameters, resulting in a more than $8\times$ faster speed
on convergence. Code is available at https://github.com/kyleleey/E-NeRV.
- Abstract(参考訳): 近年,映像の映像的暗黙的表現であるnervが,通常のピクセル的暗黙的表現に比べて有望な結果と高速性で人気を集めている。
しかし、ネットワーク構造内の冗長パラメータは、望ましいパフォーマンスのためにスケールアップする際に大きなモデルサイズを引き起こす可能性がある。
この現象の鍵となる理由は、フレームインデックス入力から直接ビデオフレームの空間的および時間的情報を出力するNeRVの結合定式化である。
本稿では,画像の暗黙的表現を空間的・時間的コンテキストに分解することで,NeRVを劇的に高速化するE-NeRVを提案する。
この新たな定式化の指導のもと、我々のモデルは表現能力を維持しながら冗長なモデルパラメータを大幅に削減する。
実験により,本手法はパラメータを少なくして大幅な性能向上が可能であり,コンバージェンスの高速化に8\times$以上を要した。
コードはhttps://github.com/kyleleey/E-NeRV.comで入手できる。
関連論文リスト
- PNeRV: A Polynomial Neural Representation for Videos [28.302862266270093]
Inlicit Neural Representations on videoの抽出は、時間次元の追加によるユニークな課題を生じさせる。
PNeRV(Polynomial Neural Representation for Videos)を紹介する。
PNeRVは、INRの領域でビデオデータによって引き起こされる課題を緩和するが、高度なビデオ処理と分析のための新たな道を開く。
論文 参考訳(メタデータ) (2024-06-27T16:15:22Z) - D-NPC: Dynamic Neural Point Clouds for Non-Rigid View Synthesis from Monocular Video [53.83936023443193]
本稿では,スマートフォンのキャプチャなどのモノクロ映像から動的に新しいビューを合成する手法を導入することにより,この分野に貢献する。
我々のアプローチは、局所的な幾何学と外観を別個のハッシュエンコードされたニューラル特徴グリッドにエンコードする暗黙の時間条件のポイントクラウドである、$textitdynamic Neural point cloudとして表現されている。
論文 参考訳(メタデータ) (2024-06-14T14:35:44Z) - VQ-NeRV: A Vector Quantized Neural Representation for Videos [3.6662666629446043]
Inlicit Neural representations (INR)は、ニューラルネットワーク内のビデオのエンコーディングに優れ、ビデオ圧縮やデノイングといったコンピュータビジョンタスクにおける約束を示す。
本稿では,新しいコンポーネントであるVQ-NeRVブロックを統合した,高度なU字型アーキテクチャであるVector Quantized-NeRV(VQ-NeRV)を紹介する。
このブロックには、ネットワークの浅い残差特徴とフレーム間の残差情報を効果的に識別するコードブック機構が組み込まれている。
論文 参考訳(メタデータ) (2024-03-19T03:19:07Z) - NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - DNeRV: Modeling Inherent Dynamics via Difference Neural Representation
for Videos [53.077189668346705]
映像の差分表現(eRV)
我々はこれを制限関数の適合性とフレーム差の重要性の観点から分析する。
DNeRVは最先端のニューラル圧縮アプローチと競合する結果を得る。
論文 参考訳(メタデータ) (2023-04-13T13:53:49Z) - HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。
ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。
コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-04-05T17:55:04Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - CNeRV: Content-adaptive Neural Representation for Visual Data [54.99373641890767]
本稿では、自動エンコーダの一般化性と暗黙的表現の単純さとコンパクトさを組み合わせた、コンテンツ適応型埋め込み(CNeRV)によるニューラルビジュアル表現を提案する。
我々は、トレーニング中にスキップされたフレーム(見えない画像)をはるかに上回りながら、トレーニング中に見られるフレームの再構築作業において、最先端の暗黙のニューラル表現であるNERVのパフォーマンスを一致させる。
同じ遅延コード長と類似のモデルサイズで、CNeRVは、見えていない画像と見えない画像の両方の再構成においてオートエンコーダより優れている。
論文 参考訳(メタデータ) (2022-11-18T18:35:43Z) - Variable Bitrate Neural Fields [75.24672452527795]
本稿では,特徴格子を圧縮し,メモリ消費を最大100倍に削減する辞書手法を提案する。
辞書の最適化をベクトル量子化オートデコーダ問題として定式化し、直接監督できない空間において、エンドツーエンドの離散神経表現を学習する。
論文 参考訳(メタデータ) (2022-06-15T17:58:34Z) - Neural Residual Flow Fields for Efficient Video Representations [5.904082461511478]
入射神経表現(INR)は、画像、ビデオ、3D形状などの信号を表現するための強力なパラダイムとして登場した。
本稿では,データ冗長性を明示的に取り除き,ビデオの表現と圧縮を行う新しいINR手法を提案する。
本稿では,提案手法がベースライン法よりも有意差で優れていることを示す。
論文 参考訳(メタデータ) (2022-01-12T06:22:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。