論文の概要: MNeRV: A Multilayer Neural Representation for Videos
- arxiv url: http://arxiv.org/abs/2407.07347v1
- Date: Wed, 10 Jul 2024 03:57:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 18:01:18.538979
- Title: MNeRV: A Multilayer Neural Representation for Videos
- Title(参考訳): MNeRV:ビデオのための多層ニューラル表現
- Authors: Qingling Chang, Haohui Yu, Shuxuan Fu, Zhiqiang Zeng, Chuangquan Chen,
- Abstract要約: ビデオのための多層ニューラル表現(MNeRV)を提案し、新しいデコーダM-デコーダとそのマッチングエンコーダM-エンコーダを設計する。
MNeRVは、より多くのエンコーディング層とデコード層を持ち、冗長なモデルパラメータの問題を効果的に軽減する。
ビデオレグレッション再構成の分野では、より少ないパラメータでより良い再現品質(+4.06 PSNR)を達成する。
- 参考スコア(独自算出の注目度): 1.1079931610880582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a novel video representation method, Neural Representations for Videos (NeRV) has shown great potential in the fields of video compression, video restoration, and video interpolation. In the process of representing videos using NeRV, each frame corresponds to an embedding, which is then reconstructed into a video frame sequence after passing through a small number of decoding layers (E-NeRV, HNeRV, etc.). However, this small number of decoding layers can easily lead to the problem of redundant model parameters due to the large proportion of parameters in a single decoding layer, which greatly restricts the video regression ability of neural network models. In this paper, we propose a multilayer neural representation for videos (MNeRV) and design a new decoder M-Decoder and its matching encoder M-Encoder. MNeRV has more encoding and decoding layers, which effectively alleviates the problem of redundant model parameters caused by too few layers. In addition, we design MNeRV blocks to perform more uniform and effective parameter allocation between decoding layers. In the field of video regression reconstruction, we achieve better reconstruction quality (+4.06 PSNR) with fewer parameters. Finally, we showcase MNeRV performance in downstream tasks such as video restoration and video interpolation. The source code of MNeRV is available at https://github.com/Aaronbtb/MNeRV.
- Abstract(参考訳): 新しいビデオ表現法として、NeRV(Neural Representations for Videos)は、ビデオ圧縮、ビデオ復元、ビデオ補間といった分野で大きな可能性を示している。
NeRVを用いて動画を表現する過程において、各フレームは埋め込みに対応し、少数の復号層(E-NeRV、HNeRVなど)を通過した後、ビデオフレームシーケンスに再構成される。
しかし、この少数の復号層は、単一の復号層におけるパラメータの多さによる冗長なモデルパラメータの問題に容易につながり、ニューラルネットワークモデルのビデオ回帰能力を大幅に制限する。
本稿では,ビデオ用多層ニューラル表現(MNeRV)を提案し,新しいデコーダM-デコーダとマッチングエンコーダM-Encoderを設計する。
MNeRVは、より多くのエンコーディング層とデコード層を持ち、過剰なレイヤによって引き起こされる冗長なモデルパラメータの問題を効果的に軽減する。
さらに、復号層間のパラメータ割り当てをより均一かつ効果的に行うために、MNeRVブロックを設計する。
ビデオレグレッション再構成の分野では、より少ないパラメータでより良い再現品質(+4.06 PSNR)を達成する。
最後に,映像復元や映像補間といった下流タスクにおいて,MNeRVの性能を示す。
MNeRVのソースコードはhttps://github.com/Aaronbtb/MNeRVで入手できる。
関連論文リスト
- VQ-NeRV: A Vector Quantized Neural Representation for Videos [3.6662666629446043]
Inlicit Neural representations (INR)は、ニューラルネットワーク内のビデオのエンコーディングに優れ、ビデオ圧縮やデノイングといったコンピュータビジョンタスクにおける約束を示す。
本稿では,新しいコンポーネントであるVQ-NeRVブロックを統合した,高度なU字型アーキテクチャであるVector Quantized-NeRV(VQ-NeRV)を紹介する。
このブロックには、ネットワークの浅い残差特徴とフレーム間の残差情報を効果的に識別するコードブック機構が組み込まれている。
論文 参考訳(メタデータ) (2024-03-19T03:19:07Z) - NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - Progressive Fourier Neural Representation for Sequential Video
Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。
本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。
我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文 参考訳(メタデータ) (2023-06-20T06:02:19Z) - HiNeRV: Video Compression with Hierarchical Encoding-based Neural
Representation [14.088444622391501]
Implicit Representations (INRs) は画像やビデオのコンテントの表現や圧縮に使われてきた。
既存のINRベースの手法は、ビデオ圧縮の最先端技術に匹敵する速度性能を達成できなかった。
軽量層と階層的位置符号化を組み合わせたINRであるHiNeRVを提案する。
論文 参考訳(メタデータ) (2023-06-16T12:59:52Z) - DNeRV: Modeling Inherent Dynamics via Difference Neural Representation
for Videos [53.077189668346705]
映像の差分表現(eRV)
我々はこれを制限関数の適合性とフレーム差の重要性の観点から分析する。
DNeRVは最先端のニューラル圧縮アプローチと競合する結果を得る。
論文 参考訳(メタデータ) (2023-04-13T13:53:49Z) - HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。
ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。
コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-04-05T17:55:04Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - CNeRV: Content-adaptive Neural Representation for Visual Data [54.99373641890767]
本稿では、自動エンコーダの一般化性と暗黙的表現の単純さとコンパクトさを組み合わせた、コンテンツ適応型埋め込み(CNeRV)によるニューラルビジュアル表現を提案する。
我々は、トレーニング中にスキップされたフレーム(見えない画像)をはるかに上回りながら、トレーニング中に見られるフレームの再構築作業において、最先端の暗黙のニューラル表現であるNERVのパフォーマンスを一致させる。
同じ遅延コード長と類似のモデルサイズで、CNeRVは、見えていない画像と見えない画像の両方の再構成においてオートエンコーダより優れている。
論文 参考訳(メタデータ) (2022-11-18T18:35:43Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。