論文の概要: MetaNeRV: Meta Neural Representations for Videos with Spatial-Temporal Guidance
- arxiv url: http://arxiv.org/abs/2501.02427v2
- Date: Fri, 17 Jan 2025 01:47:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:57:41.119322
- Title: MetaNeRV: Meta Neural Representations for Videos with Spatial-Temporal Guidance
- Title(参考訳): MetaNeRV:時空間誘導ビデオのためのメタニューラル表現
- Authors: Jialong Guo, Ke liu, Jiangchao Yao, Zhihua Wang, Jiajun Bu, Haishuai Wang,
- Abstract要約: 未確認ビデオの高速NeRV表現のための新しいフレームワークであるMetaNeRVを提案する。
本稿では,MetaNeRVの表現能力を向上させるための時空間ガイダンスを提案する。
- 参考スコア(独自算出の注目度): 20.23897961750891
- License:
- Abstract: Neural Representations for Videos (NeRV) has emerged as a promising implicit neural representation (INR) approach for video analysis, which represents videos as neural networks with frame indexes as inputs. However, NeRV-based methods are time-consuming when adapting to a large number of diverse videos, as each video requires a separate NeRV model to be trained from scratch. In addition, NeRV-based methods spatially require generating a high-dimension signal (i.e., an entire image) from the input of a low-dimension timestamp, and a video typically consists of tens of frames temporally that have a minor change between adjacent frames. To improve the efficiency of video representation, we propose Meta Neural Representations for Videos, named MetaNeRV, a novel framework for fast NeRV representation for unseen videos. MetaNeRV leverages a meta-learning framework to learn an optimal parameter initialization, which serves as a good starting point for adapting to new videos. To address the unique spatial and temporal characteristics of video modality, we further introduce spatial-temporal guidance to improve the representation capabilities of MetaNeRV. Specifically, the spatial guidance with a multi-resolution loss aims to capture the information from different resolution stages, and the temporal guidance with an effective progressive learning strategy could gradually refine the number of fitted frames during the meta-learning process. Extensive experiments conducted on multiple datasets demonstrate the superiority of MetaNeRV for video representations and video compression.
- Abstract(参考訳): ビデオのためのニューラル表現(NeRV)は、ビデオ分析のための有望な暗黙的ニューラル表現(INR)アプローチとして登場した。
しかし、NeRVベースの手法は、多くの多様なビデオに適応する際に時間がかかり、各ビデオはスクラッチからトレーニングするために別々のNeRVモデルを必要とする。
さらに、NeRVベースの手法では、低次元タイムスタンプの入力から高次元信号(すなわち画像全体)を生成する必要がある。
ビデオ表現の効率を改善するために,ビデオの高速なNeRV表現のための新しいフレームワークであるMetaNeRVという,ビデオのためのMeta Neural Representationsを提案する。
MetaNeRVはメタラーニングフレームワークを活用して最適なパラメータの初期化を学習する。
ビデオモダリティの独特な空間的特徴と時間的特徴に対処するために,MetaNeRVの表現能力を改善するための空間的時間的ガイダンスを導入する。
具体的には、多分解能損失による空間的ガイダンスは、異なる解像度段階から情報を取得することを目的としており、効果的な進行学習戦略による時間的ガイダンスは、メタラーニング過程において、適応フレームの数を徐々に改善する可能性がある。
複数のデータセット上で行われた大規模な実験は、ビデオ表現とビデオ圧縮におけるMetaNeRVの優位性を実証している。
関連論文リスト
- PNeRV: A Polynomial Neural Representation for Videos [28.302862266270093]
Inlicit Neural Representations on videoの抽出は、時間次元の追加によるユニークな課題を生じさせる。
PNeRV(Polynomial Neural Representation for Videos)を紹介する。
PNeRVは、INRの領域でビデオデータによって引き起こされる課題を緩和するが、高度なビデオ処理と分析のための新たな道を開く。
論文 参考訳(メタデータ) (2024-06-27T16:15:22Z) - Progressive Fourier Neural Representation for Sequential Video
Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。
本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。
我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文 参考訳(メタデータ) (2023-06-20T06:02:19Z) - DNeRV: Modeling Inherent Dynamics via Difference Neural Representation
for Videos [53.077189668346705]
映像の差分表現(eRV)
我々はこれを制限関数の適合性とフレーム差の重要性の観点から分析する。
DNeRVは最先端のニューラル圧縮アプローチと競合する結果を得る。
論文 参考訳(メタデータ) (2023-04-13T13:53:49Z) - HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。
ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。
コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-04-05T17:55:04Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - CNeRV: Content-adaptive Neural Representation for Visual Data [54.99373641890767]
本稿では、自動エンコーダの一般化性と暗黙的表現の単純さとコンパクトさを組み合わせた、コンテンツ適応型埋め込み(CNeRV)によるニューラルビジュアル表現を提案する。
我々は、トレーニング中にスキップされたフレーム(見えない画像)をはるかに上回りながら、トレーニング中に見られるフレームの再構築作業において、最先端の暗黙のニューラル表現であるNERVのパフォーマンスを一致させる。
同じ遅延コード長と類似のモデルサイズで、CNeRVは、見えていない画像と見えない画像の両方の再構成においてオートエンコーダより優れている。
論文 参考訳(メタデータ) (2022-11-18T18:35:43Z) - INR-V: A Continuous Representation Space for Video-based Generative
Tasks [43.245717657048296]
本稿では,映像生成タスクの連続的な空間を学習する映像表現ネットワークINR-Vを提案する。
INR-Vによって学習された表現空間は、既存の作品では不可能な多くの興味深い性質を示す画像空間よりも表現性が高い。
論文 参考訳(メタデータ) (2022-10-29T11:54:58Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - E-NeRV: Expedite Neural Video Representation with Disentangled
Spatial-Temporal Context [14.549945320069892]
本稿では,画像の暗黙的表現を空間的・時間的コンテキストに分解することで,NeRVを劇的に高速化するE-NeRVを提案する。
実験により,本手法はパラメータを少なくして大幅な性能向上が可能であり,コンバージェンスにおける速度が8倍を超えることが確認された。
論文 参考訳(メタデータ) (2022-07-17T10:16:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。