論文の概要: Towards Scalable Neural Representation for Diverse Videos
- arxiv url: http://arxiv.org/abs/2303.14124v1
- Date: Fri, 24 Mar 2023 16:32:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 13:43:48.996439
- Title: Towards Scalable Neural Representation for Diverse Videos
- Title(参考訳): 多様なビデオのためのスケーラブルなニューラル表現に向けて
- Authors: Bo He, Xitong Yang, Hanyu Wang, Zuxuan Wu, Hao Chen, Shuaiyi Huang,
Yixuan Ren, Ser-Nam Lim, Abhinav Shrivastava
- Abstract要約: Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
- 参考スコア(独自算出の注目度): 68.73612099741956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implicit neural representations (INR) have gained increasing attention in
representing 3D scenes and images, and have been recently applied to encode
videos (e.g., NeRV, E-NeRV). While achieving promising results, existing
INR-based methods are limited to encoding a handful of short videos (e.g.,
seven 5-second videos in the UVG dataset) with redundant visual content,
leading to a model design that fits individual video frames independently and
is not efficiently scalable to a large number of diverse videos. This paper
focuses on developing neural representations for a more practical setup --
encoding long and/or a large number of videos with diverse visual content. We
first show that instead of dividing videos into small subsets and encoding them
with separate models, encoding long and diverse videos jointly with a unified
model achieves better compression results. Based on this observation, we
propose D-NeRV, a novel neural representation framework designed to encode
diverse videos by (i) decoupling clip-specific visual content from motion
information, (ii) introducing temporal reasoning into the implicit neural
network, and (iii) employing the task-oriented flow as intermediate output to
reduce spatial redundancies. Our new model largely surpasses NeRV and
traditional video compression techniques on UCF101 and UVG datasets on the
video compression task. Moreover, when used as an efficient data-loader, D-NeRV
achieves 3%-10% higher accuracy than NeRV on action recognition tasks on the
UCF101 dataset under the same compression ratios.
- Abstract(参考訳): Inlicit Neural representations (INR)は、3Dシーンや画像の表現に注目が集まり、最近ビデオのエンコード(例えば、NeRV、E-NeRV)に応用されている。
有望な結果を達成する一方で、既存のINRベースの手法は、少数のショートビデオ(UVGデータセットの7つの5秒ビデオなど)を冗長なビジュアルコンテンツで符号化することに限定され、個々のビデオフレームを独立して適合させ、多数の多様なビデオに対して効率よく拡張できないモデル設計につながる。
本稿では,多彩な視覚コンテンツを含む長大な映像を符号化する,より実用的なセットアップのためのニューラル表現の開発に着目する。
まず、動画を小さなサブセットに分割し、別々のモデルでエンコードする代わりに、長く多様なビデオを統一されたモデルでエンコードすることで、より良い圧縮結果が得られることを示す。
そこで本研究では,多様な映像をエンコードするニューラル表現フレームワークD-NeRVを提案する。
(i)映像情報からクリップ特有の視覚コンテンツを分離すること。
(ii)暗黙のニューラルネットワークに時間的推論を導入すること、
(iii)中間出力としてタスク指向の流れを用い、空間的冗長性を低減すること。
我々の新しいモデルは、ビデオ圧縮タスクにおけるUCF101およびUVGデータセット上のNERVおよび従来のビデオ圧縮技術を大きく上回っている。
さらに、効率的なデータローダとして使用する場合、同じ圧縮比でUCF101データセット上のアクション認識タスクにおいて、D-NeRVはNeRVよりも3%-10%高い精度を達成する。
関連論文リスト
- NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - Progressive Fourier Neural Representation for Sequential Video
Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。
本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。
我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文 参考訳(メタデータ) (2023-06-20T06:02:19Z) - DNeRV: Modeling Inherent Dynamics via Difference Neural Representation
for Videos [53.077189668346705]
映像の差分表現(eRV)
我々はこれを制限関数の適合性とフレーム差の重要性の観点から分析する。
DNeRVは最先端のニューラル圧縮アプローチと競合する結果を得る。
論文 参考訳(メタデータ) (2023-04-13T13:53:49Z) - HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。
ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。
コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-04-05T17:55:04Z) - NIRVANA: Neural Implicit Representations of Videos with Adaptive
Networks and Autoregressive Patch-wise Modeling [37.51397331485574]
Inlicit Neural Representations (INR)は、最近、高品質なビデオ圧縮のための強力なツールであることが示されている。
これらの手法は、より長いビデオや高解像度にスケールしない固定されたアーキテクチャを持つ。
我々は,動画をフレーム群として扱うNIRVANAを提案し,パッチワイズ予測を行うグループ毎に個別のネットワークを適合させる。
論文 参考訳(メタデータ) (2022-12-30T08:17:02Z) - CNeRV: Content-adaptive Neural Representation for Visual Data [54.99373641890767]
本稿では、自動エンコーダの一般化性と暗黙的表現の単純さとコンパクトさを組み合わせた、コンテンツ適応型埋め込み(CNeRV)によるニューラルビジュアル表現を提案する。
我々は、トレーニング中にスキップされたフレーム(見えない画像)をはるかに上回りながら、トレーニング中に見られるフレームの再構築作業において、最先端の暗黙のニューラル表現であるNERVのパフォーマンスを一致させる。
同じ遅延コード長と類似のモデルサイズで、CNeRVは、見えていない画像と見えない画像の両方の再構成においてオートエンコーダより優れている。
論文 参考訳(メタデータ) (2022-11-18T18:35:43Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - NeRV: Neural Representations for Videos [36.00198388959609]
本稿では,ニューラルネット上で映像をエンコードするビデオ用ニューラル表現(NeRV)を提案する。
NeRVは単純にニューラルネットワークをビデオフレームに適合させ、デコード処理は単純なフィードフォワード操作である。
このような表現によって、ビデオはニューラルネットワークとして扱うことができ、複数のビデオ関連タスクを単純化できる。
論文 参考訳(メタデータ) (2021-10-26T17:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。