論文の概要: DS-NeRV: Implicit Neural Video Representation with Decomposed Static and Dynamic Codes
- arxiv url: http://arxiv.org/abs/2403.15679v1
- Date: Sat, 23 Mar 2024 02:09:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 21:32:08.178721
- Title: DS-NeRV: Implicit Neural Video Representation with Decomposed Static and Dynamic Codes
- Title(参考訳): DS-NeRV:分解された静的および動的符号を用いた暗黙的ニューラルビデオ表現
- Authors: Hao Yan, Zhihui Ke, Xiaobo Zhou, Tie Qiu, Xidong Shi, Dadong Jiang,
- Abstract要約: 本稿では,ビデオから学習可能な静的コードと動的コードに分解するDS-NeRVを提案する。
静的および動的コード表現の分離により,パラメータが 0.35M である 31.2 PSNR の高品質な再構成を実現する。
- 参考スコア(独自算出の注目度): 13.740702407525475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implicit neural representations for video (NeRV) have recently become a novel way for high-quality video representation. However, existing works employ a single network to represent the entire video, which implicitly confuse static and dynamic information. This leads to an inability to effectively compress the redundant static information and lack the explicitly modeling of global temporal-coherent dynamic details. To solve above problems, we propose DS-NeRV, which decomposes videos into sparse learnable static codes and dynamic codes without the need for explicit optical flow or residual supervision. By setting different sampling rates for two codes and applying weighted sum and interpolation sampling methods, DS-NeRV efficiently utilizes redundant static information while maintaining high-frequency details. Additionally, we design a cross-channel attention-based (CCA) fusion module to efficiently fuse these two codes for frame decoding. Our approach achieves a high quality reconstruction of 31.2 PSNR with only 0.35M parameters thanks to separate static and dynamic codes representation and outperforms existing NeRV methods in many downstream tasks. Our project website is at https://haoyan14.github.io/DS-NeRV.
- Abstract(参考訳): ビデオのための暗黙的ニューラル表現(NeRV)は、最近、高品質なビデオ表現の新しい方法となった。
しかし、既存の作業では、ビデオ全体を表現するために単一のネットワークを使用しており、静的情報と動的情報を暗黙的に混同している。
これにより、冗長な静的情報を効果的に圧縮することができず、グローバルな時間的コヒーレントな動的詳細を明示的にモデル化することができない。
上記の課題を解決するため,DS-NeRVを提案する。このDS-NeRVは,映像を学習可能な静的コードと動的コードに分割する。
2つの符号に対して異なるサンプリングレートを設定し、重み付け和と補間サンプリング法を適用することで、DS-NeRVは高頻度の詳細を維持しながら冗長な静的情報を効率的に活用する。
さらに,これらの2つの符号を効率よくフレームデコーディングするために,チャネル間アテンションベース(CCA)融合モジュールを設計する。
提案手法は,静的および動的コード表現の分離によるパラメータ0.35Mの31.2 PSNRの高精度な再構成を実現し,多くのダウンストリームタスクにおいて既存のNERVメソッドよりも優れる。
プロジェクトのWebサイトはhttps://haoyan14.github.io/DS-NeRV。
関連論文リスト
- MNeRV: A Multilayer Neural Representation for Videos [1.1079931610880582]
ビデオのための多層ニューラル表現(MNeRV)を提案し、新しいデコーダM-デコーダとそのマッチングエンコーダM-エンコーダを設計する。
MNeRVは、より多くのエンコーディング層とデコード層を持ち、冗長なモデルパラメータの問題を効果的に軽減する。
ビデオレグレッション再構成の分野では、より少ないパラメータでより良い再現品質(+4.06 PSNR)を達成する。
論文 参考訳(メタデータ) (2024-07-10T03:57:29Z) - Unified Static and Dynamic Network: Efficient Temporal Filtering for Video Grounding [56.315932539150324]
ビデオとテキスト/オーディオクエリ間の意味的関連を学習するために,Unified Static and Dynamic Network (UniSDNet) を設計する。
我々のUniSDNetは、NLVG(Natural Language Video Grounding)タスクとSLVG(Spoke Language Video Grounding)タスクの両方に適用できます。
論文 参考訳(メタデータ) (2024-03-21T06:53:40Z) - NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - DNeRV: Modeling Inherent Dynamics via Difference Neural Representation
for Videos [53.077189668346705]
映像の差分表現(eRV)
我々はこれを制限関数の適合性とフレーム差の重要性の観点から分析する。
DNeRVは最先端のニューラル圧縮アプローチと競合する結果を得る。
論文 参考訳(メタデータ) (2023-04-13T13:53:49Z) - HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。
ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。
コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-04-05T17:55:04Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。