論文の概要: PNeRV: Enhancing Spatial Consistency via Pyramidal Neural Representation for Videos
- arxiv url: http://arxiv.org/abs/2404.08921v1
- Date: Sat, 13 Apr 2024 07:50:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 18:03:29.236965
- Title: PNeRV: Enhancing Spatial Consistency via Pyramidal Neural Representation for Videos
- Title(参考訳): PNeRV:動画のピラミッドニューラル表現による空間整合性向上
- Authors: Qi Zhao, M. Salman Asif, Zhan Ma,
- Abstract要約: 動画用ピラミッド型ニューラル表現(PNeRV)について紹介する。
マルチスケール情報接続上に構築されており、軽量な再スケーリング演算子、Kronecker Fully- connected layer (KFc)、Selective Memory (BSM) 機構を備えている。
PNeRVはPSNRが+4.49dB、UVGが231%増加し、DAVISが+3.28dB、FVDが634%増加した。
- 参考スコア(独自算出の注目度): 40.94458611212317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The primary focus of Neural Representation for Videos (NeRV) is to effectively model its spatiotemporal consistency. However, current NeRV systems often face a significant issue of spatial inconsistency, leading to decreased perceptual quality. To address this issue, we introduce the Pyramidal Neural Representation for Videos (PNeRV), which is built on a multi-scale information connection and comprises a lightweight rescaling operator, Kronecker Fully-connected layer (KFc), and a Benign Selective Memory (BSM) mechanism. The KFc, inspired by the tensor decomposition of the vanilla Fully-connected layer, facilitates low-cost rescaling and global correlation modeling. BSM merges high-level features with granular ones adaptively. Furthermore, we provide an analysis based on the Universal Approximation Theory of the NeRV system and validate the effectiveness of the proposed PNeRV.We conducted comprehensive experiments to demonstrate that PNeRV surpasses the performance of contemporary NeRV models, achieving the best results in video regression on UVG and DAVIS under various metrics (PSNR, SSIM, LPIPS, and FVD). Compared to vanilla NeRV, PNeRV achieves a +4.49 dB gain in PSNR and a 231% increase in FVD on UVG, along with a +3.28 dB PSNR and 634% FVD increase on DAVIS.
- Abstract(参考訳): NeRV(Neural Representation for Videos)の主な焦点は、その時空間一貫性を効果的にモデル化することである。
しかし、現在のNERVシステムは空間的不整合の重大な問題に直面し、知覚品質が低下する。
この問題に対処するために、マルチスケール情報接続上に構築され、軽量な再スケーリング演算子、Kronecker Fully- connected layer(KFc)、Benign Selective Memory(BSM)機構を備えるPNeRV(Maraamidal Neural Representation for Videos)を導入する。
KFcは、バニラ・フリー連結層のテンソル分解にインスパイアされ、低コストの再スケーリングと大域的相関モデリングを促進する。
BSMは高レベル機能と粒度の機能を適応的にマージする。
さらに,提案したPNeRVシステムのユニバーサル近似理論に基づく解析を行い,提案手法の有効性を検証し,PNeRVが現在のNeRVモデルよりも優れていることを示す総合的な実験を行い,様々な指標(PSNR,SSIM,LPIPS,FVD)の下でのUVGおよびDAVISの動画レグレッションの最良の結果を得た。
バニラのNeRVと比較して、PSNRでは+4.49dB、UVGでは231%増加し、DAVISでは+3.28dB、FVDでは634%増加した。
関連論文リスト
- VRVVC: Variable-Rate NeRF-Based Volumetric Video Compression [59.14355576912495]
NeRFベースのビデオは、FVV(Photorealistic Free-Viewpoint Video)体験を提供することによって、ビジュアルメディアに革命をもたらした。
大量のデータボリュームは、ストレージと送信に重大な課題をもたらす。
ビデオ圧縮のための新しいエンドツーエンドの可変レートフレームワークであるVRVVCを提案する。
論文 参考訳(メタデータ) (2024-12-16T01:28:04Z) - INN-PAR: Invertible Neural Network for PPG to ABP Reconstruction [9.127220498800645]
ABP再建のための可逆ニューラルネットワーク(INN-PAR)を提案する。
INN-PARは、フォワードマッピングと逆マッピングの両方を同時に捕捉し、情報損失を防止する。
本稿では,可逆ブロック内のマルチスケール畳み込みモジュール(MSCM)を提案する。
論文 参考訳(メタデータ) (2024-09-13T17:48:48Z) - PNeRV: A Polynomial Neural Representation for Videos [28.302862266270093]
Inlicit Neural Representations on videoの抽出は、時間次元の追加によるユニークな課題を生じさせる。
PNeRV(Polynomial Neural Representation for Videos)を紹介する。
PNeRVは、INRの領域でビデオデータによって引き起こされる課題を緩和するが、高度なビデオ処理と分析のための新たな道を開く。
論文 参考訳(メタデータ) (2024-06-27T16:15:22Z) - VQ-NeRV: A Vector Quantized Neural Representation for Videos [3.6662666629446043]
Inlicit Neural representations (INR)は、ニューラルネットワーク内のビデオのエンコーディングに優れ、ビデオ圧縮やデノイングといったコンピュータビジョンタスクにおける約束を示す。
本稿では,新しいコンポーネントであるVQ-NeRVブロックを統合した,高度なU字型アーキテクチャであるVector Quantized-NeRV(VQ-NeRV)を紹介する。
このブロックには、ネットワークの浅い残差特徴とフレーム間の残差情報を効果的に識別するコードブック機構が組み込まれている。
論文 参考訳(メタデータ) (2024-03-19T03:19:07Z) - NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - Using BOLD-fMRI to Compute the Respiration Volume per Time (RTV) and
Respiration Variation (RV) with Convolutional Neural Networks (CNN) in the
Human Connectome Development Cohort [55.41644538483948]
本研究では, RVとRVTの2つの呼吸対策を再現するための1次元CNNモデルを提案する。
その結果、CNNはBOLD信号の静止から情報的特徴を捉え、現実的なRVとRVTのタイムリーを再構築できることがわかった。
論文 参考訳(メタデータ) (2023-07-03T18:06:36Z) - Camera-Based HRV Prediction for Remote Learning Environments [4.074837550066978]
顔ビデオから血流パルス信号を復元することは、波形を復元するための一連の前処理、画像アルゴリズム、後処理を含む難しい作業である。
r を通して HRV の指標を得る上での課題は、アルゴリズムが BVP のピーク位置を正確に予測する必要性である。
本稿では,58名の被験者を対象に,高度に同期されたビデオとラベルを32時間以上使用したRLAP(Remote Learning Affect and Physiology)データセットを収集した。
RLAPデータセットを用いて,1次元畳み込みに基づくモデルであるSeq-rを訓練し,実験結果が明らかになった。
論文 参考訳(メタデータ) (2023-05-07T02:26:00Z) - Distortion-Aware Loop Filtering of Intra 360^o Video Coding with
Equirectangular Projection [81.63407194858854]
等角射影(ERP)フォーマットで投影された360$o$ビデオの符号化性能を向上させるため,歪みを考慮したループフィルタリングモデルを提案する。
提案モジュールは、符号化ユニット(CU)パーティションマスクに基づいてコンテンツ特性を分析し、部分的畳み込みによって処理し、指定された領域を活性化する。
論文 参考訳(メタデータ) (2022-02-20T12:00:18Z) - RetiNerveNet: Using Recursive Deep Learning to Estimate Pointwise 24-2
Visual Field Data based on Retinal Structure [109.33721060718392]
緑内障は 世界でも 不可逆的な盲目の 主要な原因です 7000万人以上が 影響を受けています
The Standard Automated Perimetry (SAP) test's innate difficulty and its high test-retest variable, we propose the RetiNerveNet。
論文 参考訳(メタデータ) (2020-10-15T03:09:08Z) - Iterative Network for Image Super-Resolution [69.07361550998318]
単一画像超解像(SISR)は、最近の畳み込みニューラルネットワーク(CNN)の発展により、大幅に活性化されている。
本稿では、従来のSISRアルゴリズムに関する新たな知見を提供し、反復最適化に依存するアプローチを提案する。
反復最適化の上に,新しい反復型超解像ネットワーク (ISRN) を提案する。
論文 参考訳(メタデータ) (2020-05-20T11:11:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。