論文の概要: DNeRV: Modeling Inherent Dynamics via Difference Neural Representation
for Videos
- arxiv url: http://arxiv.org/abs/2304.06544v1
- Date: Thu, 13 Apr 2023 13:53:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 14:16:29.758014
- Title: DNeRV: Modeling Inherent Dynamics via Difference Neural Representation
for Videos
- Title(参考訳): DNeRV:ビデオの差分ニューラルネットワーク表現によるインヒーレントダイナミクスのモデリング
- Authors: Qi Zhao, M. Salman Asif, Zhan Ma
- Abstract要約: 映像の差分表現(eRV)
我々はこれを制限関数の適合性とフレーム差の重要性の観点から分析する。
DNeRVは最先端のニューラル圧縮アプローチと競合する結果を得る。
- 参考スコア(独自算出の注目度): 53.077189668346705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing implicit neural representation (INR) methods do not fully exploit
spatiotemporal redundancies in videos. Index-based INRs ignore the
content-specific spatial features and hybrid INRs ignore the contextual
dependency on adjacent frames, leading to poor modeling capability for scenes
with large motion or dynamics. We analyze this limitation from the perspective
of function fitting and reveal the importance of frame difference. To use
explicit motion information, we propose Difference Neural Representation for
Videos (DNeRV), which consists of two streams for content and frame difference.
We also introduce a collaborative content unit for effective feature fusion. We
test DNeRV for video compression, inpainting, and interpolation. DNeRV achieves
competitive results against the state-of-the-art neural compression approaches
and outperforms existing implicit methods on downstream inpainting and
interpolation for $960 \times 1920$ videos.
- Abstract(参考訳): 既存の暗黙的神経表現(INR)法はビデオの時空間冗長性を十分に活用していない。
インデックスベースのINRはコンテンツ固有の空間的特徴を無視し、ハイブリッドINRは隣接するフレームへのコンテキスト依存を無視し、大きな動きやダイナミクスを持つシーンのモデリング能力が劣る。
この制限を機能適合の観点から分析し,フレーム差の重要性を明らかにする。
そこで本稿では,映像のコンテンツとフレーム差の2つのストリームからなる映像の差分ニューラルネットワーク表現(DNeRV)を提案する。
効果的な機能融合のための協調コンテンツユニットも導入する。
ビデオ圧縮, 塗装, 補間のためのDNeRVをテストする。
DNeRVは、最先端のニューラル圧縮アプローチに対する競合的な結果を達成し、1920ドルビデオの下流の塗装と補間における既存の暗黙の手法より優れている。
関連論文リスト
- PNeRV: A Polynomial Neural Representation for Videos [28.302862266270093]
Inlicit Neural Representations on videoの抽出は、時間次元の追加によるユニークな課題を生じさせる。
PNeRV(Polynomial Neural Representation for Videos)を紹介する。
PNeRVは、INRの領域でビデオデータによって引き起こされる課題を緩和するが、高度なビデオ処理と分析のための新たな道を開く。
論文 参考訳(メタデータ) (2024-06-27T16:15:22Z) - NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。
ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。
コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-04-05T17:55:04Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - CNeRV: Content-adaptive Neural Representation for Visual Data [54.99373641890767]
本稿では、自動エンコーダの一般化性と暗黙的表現の単純さとコンパクトさを組み合わせた、コンテンツ適応型埋め込み(CNeRV)によるニューラルビジュアル表現を提案する。
我々は、トレーニング中にスキップされたフレーム(見えない画像)をはるかに上回りながら、トレーニング中に見られるフレームの再構築作業において、最先端の暗黙のニューラル表現であるNERVのパフォーマンスを一致させる。
同じ遅延コード長と類似のモデルサイズで、CNeRVは、見えていない画像と見えない画像の両方の再構成においてオートエンコーダより優れている。
論文 参考訳(メタデータ) (2022-11-18T18:35:43Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - E-NeRV: Expedite Neural Video Representation with Disentangled
Spatial-Temporal Context [14.549945320069892]
本稿では,画像の暗黙的表現を空間的・時間的コンテキストに分解することで,NeRVを劇的に高速化するE-NeRVを提案する。
実験により,本手法はパラメータを少なくして大幅な性能向上が可能であり,コンバージェンスにおける速度が8倍を超えることが確認された。
論文 参考訳(メタデータ) (2022-07-17T10:16:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。