論文の概要: PNeRV: A Polynomial Neural Representation for Videos
- arxiv url: http://arxiv.org/abs/2406.19299v1
- Date: Thu, 27 Jun 2024 16:15:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 13:28:34.983462
- Title: PNeRV: A Polynomial Neural Representation for Videos
- Title(参考訳): PNeRV: ビデオのための多項式ニューラル表現
- Authors: Sonam Gupta, Snehal Singh Tomar, Grigorios G Chrysos, Sukhendu Das, A. N. Rajagopalan,
- Abstract要約: Inlicit Neural Representations on videoの抽出は、時間次元の追加によるユニークな課題を生じさせる。
PNeRV(Polynomial Neural Representation for Videos)を紹介する。
PNeRVは、INRの領域でビデオデータによって引き起こされる課題を緩和するが、高度なビデオ処理と分析のための新たな道を開く。
- 参考スコア(独自算出の注目度): 28.302862266270093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extracting Implicit Neural Representations (INRs) on video data poses unique challenges due to the additional temporal dimension. In the context of videos, INRs have predominantly relied on a frame-only parameterization, which sacrifices the spatiotemporal continuity observed in pixel-level (spatial) representations. To mitigate this, we introduce Polynomial Neural Representation for Videos (PNeRV), a parameter-wise efficient, patch-wise INR for videos that preserves spatiotemporal continuity. PNeRV leverages the modeling capabilities of Polynomial Neural Networks to perform the modulation of a continuous spatial (patch) signal with a continuous time (frame) signal. We further propose a custom Hierarchical Patch-wise Spatial Sampling Scheme that ensures spatial continuity while retaining parameter efficiency. We also employ a carefully designed Positional Embedding methodology to further enhance PNeRV's performance. Our extensive experimentation demonstrates that PNeRV outperforms the baselines in conventional Implicit Neural Representation tasks like compression along with downstream applications that require spatiotemporal continuity in the underlying representation. PNeRV not only addresses the challenges posed by video data in the realm of INRs but also opens new avenues for advanced video processing and analysis.
- Abstract(参考訳): Inlicit Neural Representations (INR) をビデオデータに抽出することは、時間次元の増大による固有の課題をもたらす。
ビデオの文脈では、INRは主にフレームのみのパラメータ化に依存しており、ピクセルレベルの(空間的な)表現で観察される時空間連続性を犠牲にしている。
これを緩和するために、時空間連続性を保存するビデオのためのパラメータワイドでパッチワイドなINRであるPolynomial Neural Representation for Videos (PNeRV)を導入する。
PNeRVは、連続時間(フレーム)信号による連続空間(パッチ)信号の変調を実行するために、多項式ニューラルネットワークのモデリング機能を利用する。
さらに,パラメータ効率を保ちながら空間連続性を確保できる独自の階層的パッチワイド空間サンプリングスキームを提案する。
また、PNeRVの性能をさらに向上させるために、注意深く設計された位置埋め込み手法を用いる。
我々の広範な実験により、PNeRVは圧縮のような従来のインプリシットニューラル表現タスクのベースラインと、基礎となる表現の時空間連続性を必要とする下流アプリケーションで性能を向上することを示した。
PNeRVは、INRの領域でビデオデータによって引き起こされる課題に対処するだけでなく、高度なビデオ処理と分析のための新たな道を開く。
関連論文リスト
- Invertible Neural Warp for NeRF [29.00183106905031]
本稿では、ポーズとニューラルラジアンスフィールド(NeRF)の同時最適化に取り組む。
本稿では,モデルカメラが学習可能な剛性ワープ関数として機能する,パラメータの過剰表現を提案する。
提案手法は,合成および実世界のデータセットにおいて,ポーズ推定や高忠実度再構成の点で,既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-07-17T07:14:08Z) - Towards a Sampling Theory for Implicit Neural Representations [0.3222802562733786]
Inlicit Neural representations (INRs) は、コンピュータおよび計算画像における逆問題を解決する強力なツールとして登場した。
一般化された重み減衰正規化方式を用いて, 隠蔽層INRから画像の復元方法を示す。
低幅単層INRにより実現された正確な回復画像を得る確率を実証的に評価し、より現実的な連続領域ファントム画像の超解像回復におけるINRの性能を示す。
論文 参考訳(メタデータ) (2024-05-28T17:53:47Z) - NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - NeVRF: Neural Video-based Radiance Fields for Long-duration Sequences [53.8501224122952]
本稿では,新しいニューラルビデオベース放射場(NeVRF)の表現を提案する。
NeVRFは、画像ベースのレンダリングを備えたニューラルラディアンスフィールドをマージし、長期のダイナミックな内向きシーンにおけるフォトリアリスティックなノベルビュー合成をサポートする。
本実験は,NeVRFが長期化シーケンスレンダリング,シーケンシャルデータ再構成,コンパクトデータストレージの実現に有効であることを示す。
論文 参考訳(メタデータ) (2023-12-10T11:14:30Z) - ResFields: Residual Neural Fields for Spatiotemporal Signals [61.44420761752655]
ResFieldsは、複雑な時間的信号を効果的に表現するために設計された新しいネットワークのクラスである。
本稿では,ResFieldの特性を包括的に解析し,トレーニング可能なパラメータの数を減らすための行列分解手法を提案する。
スパースRGBDカメラからダイナミックな3Dシーンをキャプチャする効果を示すことで,ResFieldsの実用性を実証する。
論文 参考訳(メタデータ) (2023-09-06T16:59:36Z) - DNeRV: Modeling Inherent Dynamics via Difference Neural Representation
for Videos [53.077189668346705]
映像の差分表現(eRV)
我々はこれを制限関数の適合性とフレーム差の重要性の観点から分析する。
DNeRVは最先端のニューラル圧縮アプローチと競合する結果を得る。
論文 参考訳(メタデータ) (2023-04-13T13:53:49Z) - Neural Residual Radiance Fields for Streamably Free-Viewpoint Videos [69.22032459870242]
本稿では,Residual Radiance Field(ReRF)という新しい手法を提案する。
このような戦略は品質を犠牲にすることなく大きな動きを扱えることを示す。
ReRFに基づいて,3桁の圧縮率を達成する特別なFVVを設計し,ダイナミックシーンの長期FVVのオンラインストリーミングをサポートするReRFプレーヤを提供する。
論文 参考訳(メタデータ) (2023-04-10T08:36:00Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - E-NeRV: Expedite Neural Video Representation with Disentangled
Spatial-Temporal Context [14.549945320069892]
本稿では,画像の暗黙的表現を空間的・時間的コンテキストに分解することで,NeRVを劇的に高速化するE-NeRVを提案する。
実験により,本手法はパラメータを少なくして大幅な性能向上が可能であり,コンバージェンスにおける速度が8倍を超えることが確認された。
論文 参考訳(メタデータ) (2022-07-17T10:16:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。