論文の概要: NeRV: Neural Representations for Videos
- arxiv url: http://arxiv.org/abs/2110.13903v1
- Date: Tue, 26 Oct 2021 17:56:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 15:41:55.968443
- Title: NeRV: Neural Representations for Videos
- Title(参考訳): NeRV: ビデオのためのニューラル表現
- Authors: Hao Chen, Bo He, Hanyu Wang, Yixuan Ren, Ser-Nam Lim, Abhinav
Shrivastava
- Abstract要約: 本稿では,ニューラルネット上で映像をエンコードするビデオ用ニューラル表現(NeRV)を提案する。
NeRVは単純にニューラルネットワークをビデオフレームに適合させ、デコード処理は単純なフィードフォワード操作である。
このような表現によって、ビデオはニューラルネットワークとして扱うことができ、複数のビデオ関連タスクを単純化できる。
- 参考スコア(独自算出の注目度): 36.00198388959609
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a novel neural representation for videos (NeRV) which encodes
videos in neural networks. Unlike conventional representations that treat
videos as frame sequences, we represent videos as neural networks taking frame
index as input. Given a frame index, NeRV outputs the corresponding RGB image.
Video encoding in NeRV is simply fitting a neural network to video frames and
decoding process is a simple feedforward operation. As an image-wise implicit
representation, NeRV output the whole image and shows great efficiency compared
to pixel-wise implicit representation, improving the encoding speed by 25x to
70x, the decoding speed by 38x to 132x, while achieving better video quality.
With such a representation, we can treat videos as neural networks, simplifying
several video-related tasks. For example, conventional video compression
methods are restricted by a long and complex pipeline, specifically designed
for the task. In contrast, with NeRV, we can use any neural network compression
method as a proxy for video compression, and achieve comparable performance to
traditional frame-based video compression approaches (H.264, HEVC \etc).
Besides compression, we demonstrate the generalization of NeRV for video
denoising. The source code and pre-trained model can be found at
https://github.com/haochen-rye/NeRV.git.
- Abstract(参考訳): 本稿では,ニューラルネットワークに映像をエンコードするビデオ用ニューラル表現(nerv)を提案する。
ビデオをフレームシーケンスとして扱う従来の表現とは異なり、ビデオはフレームインデックスを入力とするニューラルネットワークとして表現する。
フレームインデックスが与えられた場合、NeRVは対応するRGB画像を出力する。
NeRVのビデオ符号化は、単にニューラルネットワークをビデオフレームに適合させることであり、デコーディングプロセスは単純なフィードフォワード操作である。
画像単位の暗示表現として、NeRVは画像全体を出力し、ピクセル単位の暗示表現と比較して高い効率を示し、符号化速度を25倍から70倍、復号速度を38倍から132倍に改善し、画質の向上を実現した。
このような表現によって、ビデオはニューラルネットワークとして扱うことができ、複数のビデオ関連タスクを単純化できる。
例えば、従来のビデオ圧縮手法は、タスク用に特別に設計された長く複雑なパイプラインによって制限される。
対照的に、NERVでは、任意のニューラルネットワーク圧縮をビデオ圧縮のプロキシとして使用することができ、従来のフレームベースのビデオ圧縮アプローチ(H.264, HEVC \etc)と同等のパフォーマンスを実現することができる。
圧縮に加えて,ビデオデノーミングのためのNeRVの一般化を示す。
ソースコードと事前トレーニングされたモデルはhttps://github.com/haochen-rye/NeRV.git.comにある。
関連論文リスト
- Fast Encoding and Decoding for Implicit Video Representation [88.43612845776265]
本稿では,高速エンコーディングのためのトランスフォーマーベースのハイパーネットワークであるNeRV-Encと,効率的なビデオローディングのための並列デコーダであるNeRV-Decを紹介する。
NeRV-Encは勾配ベースの最適化をなくすことで$mathbf104times$の素晴らしいスピードアップを実現している。
NeRV-Decはビデオデコーディングを単純化し、ロード速度が$mathbf11times$で従来のコーデックよりも高速である。
論文 参考訳(メタデータ) (2024-09-28T18:21:52Z) - NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。
ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。
コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-04-05T17:55:04Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - CNeRV: Content-adaptive Neural Representation for Visual Data [54.99373641890767]
本稿では、自動エンコーダの一般化性と暗黙的表現の単純さとコンパクトさを組み合わせた、コンテンツ適応型埋め込み(CNeRV)によるニューラルビジュアル表現を提案する。
我々は、トレーニング中にスキップされたフレーム(見えない画像)をはるかに上回りながら、トレーニング中に見られるフレームの再構築作業において、最先端の暗黙のニューラル表現であるNERVのパフォーマンスを一致させる。
同じ遅延コード長と類似のモデルサイズで、CNeRVは、見えていない画像と見えない画像の両方の再構成においてオートエンコーダより優れている。
論文 参考訳(メタデータ) (2022-11-18T18:35:43Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - PS-NeRV: Patch-wise Stylized Neural Representations for Videos [13.14511356472246]
PS-NeRVは、動画をパッチと対応するパッチ座標の関数として表現する。
画像ワイド手法の利点を自然に受け継ぎ、高速な復号化速度で優れた復号化性能を実現する。
論文 参考訳(メタデータ) (2022-08-07T14:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。