論文の概要: How to Design and Train Your Implicit Neural Representation for Video Compression
- arxiv url: http://arxiv.org/abs/2506.24127v1
- Date: Mon, 30 Jun 2025 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.195608
- Title: How to Design and Train Your Implicit Neural Representation for Video Compression
- Title(参考訳): ビデオ圧縮のための意図しないニューラル表現の設計と学習方法
- Authors: Matthew Gwilliam, Roy Zhang, Namitha Padmanabhan, Hongyang Du, Abhinav Shrivastava,
- Abstract要約: ビデオ圧縮のための入射神経表現法(INR)は、近年、従来のパイプラインと競合する視覚的品質と圧縮比を達成している。
サンプルごとのネットワークトレーニングが必要なため、これらの手法の符号化速度は実践的に採用するには遅すぎる。
サイズ品質のトレードオフだけでなく、トレーニング時間にも影響するので、NeRVファミリーのメソッドのコンポーネントをアンハングルしてレビューできるライブラリを開発しています。
- 参考スコア(独自算出の注目度): 36.99005569656888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Implicit neural representation (INR) methods for video compression have recently achieved visual quality and compression ratios that are competitive with traditional pipelines. However, due to the need for per-sample network training, the encoding speeds of these methods are too slow for practical adoption. We develop a library to allow us to disentangle and review the components of methods from the NeRV family, reframing their performance in terms of not only size-quality trade-offs, but also impacts on training time. We uncover principles for effective video INR design and propose a state-of-the-art configuration of these components, Rabbit NeRV (RNeRV). When all methods are given equal training time (equivalent to 300 NeRV epochs) for 7 different UVG videos at 1080p, RNeRV achieves +1.27% PSNR on average compared to the best-performing alternative for each video in our NeRV library. We then tackle the encoding speed issue head-on by investigating the viability of hyper-networks, which predict INR weights from video inputs, to disentangle training from encoding to allow for real-time encoding. We propose masking the weights of the predicted INR during training to allow for variable, higher quality compression, resulting in 1.7% improvements to both PSNR and MS-SSIM at 0.037 bpp on the UCF-101 dataset, and we increase hyper-network parameters by 0.4% for 2.5%/2.7% improvements to PSNR/MS-SSIM with equal bpp and similar speeds. Our project website is available at https://mgwillia.github.io/vinrb/ and our code is available at https://github.com/mgwillia/vinrb.
- Abstract(参考訳): ビデオ圧縮のための入射神経表現法(INR)は、近年、従来のパイプラインと競合する視覚的品質と圧縮比を達成している。
しかし、サンプルごとのネットワークトレーニングが必要なため、これらの手法の符号化速度は実用上は遅すぎる。
サイズ品質のトレードオフだけでなく、トレーニング時間にも影響するので、NeRVファミリーのメソッドのコンポーネントをアンハングルしてレビューできるライブラリを開発しています。
有効ビデオINR設計の原理を明らかにし,これらのコンポーネントの最先端構成であるRabbit NeRV(RNeRV)を提案する。
すべての方法が1080pで7つの異なるUVGビデオに対して同等のトレーニング時間(300NERVエポックに相当する)が与えられると、RNeRVは平均で1.27%のPSNRを達成します。
次に,映像入力からINR重みを予測するハイパーネットワークの実現可能性を調査し,エンコーディングからトレーニングを遠ざけ,リアルタイムエンコーディングを可能にする。
UCF-101データセットでPSNRとMS-SSIMを0.037bppで1.7%改善し,PSNR/MS-SSIMを2.5%/2で0.4%改善し,PSNR/MS-SSIMを2.7%改善した。
プロジェクトのWebサイトはhttps://mgwillia.github.io/vinrb/で、コードはhttps://github.com/mgwillia/vinrbで利用可能です。
関連論文リスト
- Efficient Neural Video Representation with Temporally Coherent Modulation [6.339750087526286]
Inlicit Neural representations (INR) は様々な分野にまたがって成功している。
本稿では,映像の動的特徴を捉える新しいフレームワークである時間的コヒーレント変調(NVTM)を用いたニューラルビデオ表現を提案する。
本フレームワークは,時間的に時間的に対応可能な画素を一度に実現し,ビデオ品質の適切な符号化速度を実現する。
論文 参考訳(メタデータ) (2025-05-01T06:20:42Z) - NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - HiNeRV: Video Compression with Hierarchical Encoding-based Neural
Representation [14.088444622391501]
Implicit Representations (INRs) は画像やビデオのコンテントの表現や圧縮に使われてきた。
既存のINRベースの手法は、ビデオ圧縮の最先端技術に匹敵する速度性能を達成できなかった。
軽量層と階層的位置符号化を組み合わせたINRであるHiNeRVを提案する。
論文 参考訳(メタデータ) (2023-06-16T12:59:52Z) - HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。
ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。
コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-04-05T17:55:04Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - CNeRV: Content-adaptive Neural Representation for Visual Data [54.99373641890767]
本稿では、自動エンコーダの一般化性と暗黙的表現の単純さとコンパクトさを組み合わせた、コンテンツ適応型埋め込み(CNeRV)によるニューラルビジュアル表現を提案する。
我々は、トレーニング中にスキップされたフレーム(見えない画像)をはるかに上回りながら、トレーニング中に見られるフレームの再構築作業において、最先端の暗黙のニューラル表現であるNERVのパフォーマンスを一致させる。
同じ遅延コード長と類似のモデルサイズで、CNeRVは、見えていない画像と見えない画像の両方の再構成においてオートエンコーダより優れている。
論文 参考訳(メタデータ) (2022-11-18T18:35:43Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - ELF-VC: Efficient Learned Flexible-Rate Video Coding [61.10102916737163]
低レイテンシモードの性能向上を実現するための,学習ビデオ圧縮のための新しいアイデアをいくつか提案する。
一般的なビデオテストセット UVG と MCL-JCV 上で,ELF-VC と呼ぶ手法をベンチマークする。
我々の手法は少なくとも5倍高速に動作し、これらの数値を報告するすべてのMLコーデックよりもパラメータが少ない。
論文 参考訳(メタデータ) (2021-04-29T17:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。