論文の概要: HNeRV: A Hybrid Neural Representation for Videos
- arxiv url: http://arxiv.org/abs/2304.02633v1
- Date: Wed, 5 Apr 2023 17:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 11:47:15.962346
- Title: HNeRV: A Hybrid Neural Representation for Videos
- Title(参考訳): HNeRV:ビデオのためのハイブリッドニューラルネットワーク
- Authors: Hao Chen, Matt Gwilliam, Ser-Nam Lim, Abhinav Shrivastava
- Abstract要約: 暗黙の神経表現は、動画をニューラルネットワークとして保存する。
ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。
コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
- 参考スコア(独自算出の注目度): 56.492309149698606
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Implicit neural representations store videos as neural networks and have
performed well for various vision tasks such as video compression and
denoising. With frame index or positional index as input, implicit
representations (NeRV, E-NeRV, \etc) reconstruct video from fixed and
content-agnostic embeddings. Such embedding largely limits the regression
capacity and internal generalization for video interpolation. In this paper, we
propose a Hybrid Neural Representation for Videos (HNeRV), where a learnable
encoder generates content-adaptive embeddings, which act as the decoder input.
Besides the input embedding, we introduce HNeRV blocks, which ensure model
parameters are evenly distributed across the entire network, such that higher
layers (layers near the output) can have more capacity to store high-resolution
content and video details. With content-adaptive embeddings and re-designed
architecture, HNeRV outperforms implicit methods in video regression tasks for
both reconstruction quality ($+4.7$ PSNR) and convergence speed ($16\times$
faster), and shows better internal generalization. As a simple and efficient
video representation, HNeRV also shows decoding advantages for speed,
flexibility, and deployment, compared to traditional codecs~(H.264, H.265) and
learning-based compression methods. Finally, we explore the effectiveness of
HNeRV on downstream tasks such as video compression and video inpainting. We
provide project page at https://haochen-rye.github.io/HNeRV, and Code at
https://github.com/haochen-rye/HNeRV
- Abstract(参考訳): 暗黙的なニューラルネットワーク表現は、ビデオをニューラルネットワークとして保存し、ビデオ圧縮やデノイジングといった様々な視覚タスクでうまく機能している。
フレームインデックスや位置インデックスを入力として、暗黙の表現(NeRV, E-NeRV, \etc)は、固定およびコンテンツに依存しない埋め込みからビデオを再構成する。
このような埋め込みは、ビデオ補間における回帰能力と内部一般化を大幅に制限する。
本稿では、学習可能なエンコーダがデコーダ入力として機能するコンテンツ適応型埋め込みを生成するHybrid Neural Representation for Videos (HNeRV)を提案する。
入力埋め込みに加えて、HNeRVブロックを導入し、モデルパラメータがネットワーク全体にわたって均等に分散されることを保証する。
コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVは再生品質(+4.7$ PSNR)と収束速度($16\times$ faster)の両方でビデオ回帰タスクの暗黙の手法より優れ、内部の一般化が向上している。
HNeRVは、シンプルで効率的なビデオ表現として、従来のコーデック~(H.264, H.265)や学習ベースの圧縮手法と比較して、速度、柔軟性、展開のデコーディングの利点を示す。
最後に,映像圧縮や映像インパインティングなどの下流作業におけるHNeRVの有効性について検討する。
プロジェクトページはhttps://haochen-rye.github.io/HNeRV、コードはhttps://github.com/haochen-rye/HNeRVです。
関連論文リスト
- Fast Encoding and Decoding for Implicit Video Representation [88.43612845776265]
本稿では,高速エンコーディングのためのトランスフォーマーベースのハイパーネットワークであるNeRV-Encと,効率的なビデオローディングのための並列デコーダであるNeRV-Decを紹介する。
NeRV-Encは勾配ベースの最適化をなくすことで$mathbf104times$の素晴らしいスピードアップを実現している。
NeRV-Decはビデオデコーディングを単純化し、ロード速度が$mathbf11times$で従来のコーデックよりも高速である。
論文 参考訳(メタデータ) (2024-09-28T18:21:52Z) - MNeRV: A Multilayer Neural Representation for Videos [1.1079931610880582]
ビデオのための多層ニューラル表現(MNeRV)を提案し、新しいデコーダM-デコーダとそのマッチングエンコーダM-エンコーダを設計する。
MNeRVは、より多くのエンコーディング層とデコード層を持ち、冗長なモデルパラメータの問題を効果的に軽減する。
ビデオレグレッション再構成の分野では、より少ないパラメータでより良い再現品質(+4.06 PSNR)を達成する。
論文 参考訳(メタデータ) (2024-07-10T03:57:29Z) - VQ-NeRV: A Vector Quantized Neural Representation for Videos [3.6662666629446043]
Inlicit Neural representations (INR)は、ニューラルネットワーク内のビデオのエンコーディングに優れ、ビデオ圧縮やデノイングといったコンピュータビジョンタスクにおける約束を示す。
本稿では,新しいコンポーネントであるVQ-NeRVブロックを統合した,高度なU字型アーキテクチャであるVector Quantized-NeRV(VQ-NeRV)を紹介する。
このブロックには、ネットワークの浅い残差特徴とフレーム間の残差情報を効果的に識別するコードブック機構が組み込まれている。
論文 参考訳(メタデータ) (2024-03-19T03:19:07Z) - NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - DNeRV: Modeling Inherent Dynamics via Difference Neural Representation
for Videos [53.077189668346705]
映像の差分表現(eRV)
我々はこれを制限関数の適合性とフレーム差の重要性の観点から分析する。
DNeRVは最先端のニューラル圧縮アプローチと競合する結果を得る。
論文 参考訳(メタデータ) (2023-04-13T13:53:49Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - CNeRV: Content-adaptive Neural Representation for Visual Data [54.99373641890767]
本稿では、自動エンコーダの一般化性と暗黙的表現の単純さとコンパクトさを組み合わせた、コンテンツ適応型埋め込み(CNeRV)によるニューラルビジュアル表現を提案する。
我々は、トレーニング中にスキップされたフレーム(見えない画像)をはるかに上回りながら、トレーニング中に見られるフレームの再構築作業において、最先端の暗黙のニューラル表現であるNERVのパフォーマンスを一致させる。
同じ遅延コード長と類似のモデルサイズで、CNeRVは、見えていない画像と見えない画像の両方の再構成においてオートエンコーダより優れている。
論文 参考訳(メタデータ) (2022-11-18T18:35:43Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - NeRV: Neural Representations for Videos [36.00198388959609]
本稿では,ニューラルネット上で映像をエンコードするビデオ用ニューラル表現(NeRV)を提案する。
NeRVは単純にニューラルネットワークをビデオフレームに適合させ、デコード処理は単純なフィードフォワード操作である。
このような表現によって、ビデオはニューラルネットワークとして扱うことができ、複数のビデオ関連タスクを単純化できる。
論文 参考訳(メタデータ) (2021-10-26T17:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。