論文の概要: CNeRV: Content-adaptive Neural Representation for Visual Data
- arxiv url: http://arxiv.org/abs/2211.10421v1
- Date: Fri, 18 Nov 2022 18:35:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 15:18:37.477254
- Title: CNeRV: Content-adaptive Neural Representation for Visual Data
- Title(参考訳): CNeRV:ビジュアルデータのためのコンテンツ適応型ニューラル表現
- Authors: Hao Chen, Matt Gwilliam, Bo He, Ser-Nam Lim, Abhinav Shrivastava
- Abstract要約: 本稿では、自動エンコーダの一般化性と暗黙的表現の単純さとコンパクトさを組み合わせた、コンテンツ適応型埋め込み(CNeRV)によるニューラルビジュアル表現を提案する。
我々は、トレーニング中にスキップされたフレーム(見えない画像)をはるかに上回りながら、トレーニング中に見られるフレームの再構築作業において、最先端の暗黙のニューラル表現であるNERVのパフォーマンスを一致させる。
同じ遅延コード長と類似のモデルサイズで、CNeRVは、見えていない画像と見えない画像の両方の再構成においてオートエンコーダより優れている。
- 参考スコア(独自算出の注目度): 54.99373641890767
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Compression and reconstruction of visual data have been widely studied in the
computer vision community, even before the popularization of deep learning.
More recently, some have used deep learning to improve or refine existing
pipelines, while others have proposed end-to-end approaches, including
autoencoders and implicit neural representations, such as SIREN and NeRV. In
this work, we propose Neural Visual Representation with Content-adaptive
Embedding (CNeRV), which combines the generalizability of autoencoders with the
simplicity and compactness of implicit representation. We introduce a novel
content-adaptive embedding that is unified, concise, and internally
(within-video) generalizable, that compliments a powerful decoder with a
single-layer encoder. We match the performance of NeRV, a state-of-the-art
implicit neural representation, on the reconstruction task for frames seen
during training while far surpassing for frames that are skipped during
training (unseen images). To achieve similar reconstruction quality on unseen
images, NeRV needs 120x more time to overfit per-frame due to its lack of
internal generalization. With the same latent code length and similar model
size, CNeRV outperforms autoencoders on reconstruction of both seen and unseen
images. We also show promising results for visual data compression. More
details can be found in the project pagehttps://haochen-rye.github.io/CNeRV/
- Abstract(参考訳): ビジュアルデータの圧縮と再構成は、ディープラーニングの普及以前にもコンピュータビジョンコミュニティで広く研究されてきた。
最近では、ディープラーニングを使って既存のパイプラインを改善したり洗練したりする人もいれば、オートエンコーダやSIRENやNeRVといった暗黙の神経表現など、エンドツーエンドのアプローチを提案する人もいる。
本研究では、自動エンコーダの一般化性と暗黙的表現の単純さとコンパクト性を組み合わせたCNeRV(Neural Visual Representation with Content-Adaptive Embedding)を提案する。
単一層エンコーダで強力なデコーダを補完する,統一的で簡潔かつ内部的に(ビデオ内)一般化可能な新しいコンテンツ適応型埋め込みを提案する。
我々は,現在最先端の暗黙的ニューラル表現であるNERVの性能を,トレーニング中に見られるフレームの再構成作業と一致し,トレーニング中にスキップされるフレーム(未知の画像)をはるかに上回っている。
未確認画像における同様の再構成品質を達成するために、NeRVは内部の一般化が欠如しているため、フレームごとのオーバーフィットに120倍の時間を要する。
同じ潜在コード長と類似のモデルサイズで、cnervは見えない画像と見えない画像の両方の再構成においてオートエンコーダを上回る。
また、視覚データ圧縮の有望な結果を示す。
詳細はプロジェクトのhttps://haochen-rye.github.io/CNeRV/にある。
関連論文リスト
- VQ-NeRV: A Vector Quantized Neural Representation for Videos [3.6662666629446043]
Inlicit Neural representations (INR)は、ニューラルネットワーク内のビデオのエンコーディングに優れ、ビデオ圧縮やデノイングといったコンピュータビジョンタスクにおける約束を示す。
本稿では,新しいコンポーネントであるVQ-NeRVブロックを統合した,高度なU字型アーキテクチャであるVector Quantized-NeRV(VQ-NeRV)を紹介する。
このブロックには、ネットワークの浅い残差特徴とフレーム間の残差情報を効果的に識別するコードブック機構が組み込まれている。
論文 参考訳(メタデータ) (2024-03-19T03:19:07Z) - NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - Progressive Fourier Neural Representation for Sequential Video
Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。
本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。
我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文 参考訳(メタデータ) (2023-06-20T06:02:19Z) - HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。
ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。
コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-04-05T17:55:04Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - NeRV: Neural Representations for Videos [36.00198388959609]
本稿では,ニューラルネット上で映像をエンコードするビデオ用ニューラル表現(NeRV)を提案する。
NeRVは単純にニューラルネットワークをビデオフレームに適合させ、デコード処理は単純なフィードフォワード操作である。
このような表現によって、ビデオはニューラルネットワークとして扱うことができ、複数のビデオ関連タスクを単純化できる。
論文 参考訳(メタデータ) (2021-10-26T17:56:23Z) - Neural Rays for Occlusion-aware Image-based Rendering [108.34004858785896]
我々は,ニューラルレイ(NeuRay)と呼ばれるニューラル表現を,マルチビューイメージを入力として,新しいビュー合成(NVS)タスクのために提案する。
NeuRayは、微調整の少ない未確認シーンの高品質なノベルビューレンダリング画像を生成することができる。
論文 参考訳(メタデータ) (2021-07-28T15:09:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。