論文の概要: TeCoNeRV: Leveraging Temporal Coherence for Compressible Neural Representations for Videos
- arxiv url: http://arxiv.org/abs/2602.16711v1
- Date: Wed, 18 Feb 2026 18:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.699493
- Title: TeCoNeRV: Leveraging Temporal Coherence for Compressible Neural Representations for Videos
- Title(参考訳): TeCoNeRV:ビデオのための圧縮性ニューラル表現のためのテンポラルコヒーレンスを活用する
- Authors: Namitha Padmanabhan, Matthew Gwilliam, Abhinav Shrivastava,
- Abstract要約: Inlicit Neural Representations (INRs) は、最近ビデオ圧縮における印象的な性能を実証した。
しかし、エンコーディング効率を維持しながら高解像度ビデオへのスケーリングは依然として大きな課題である。
3つの重要なコントリビューションを通じて、これらの基本的な制限に対処します。
我々は,UVG,HEVC,MCL-JCVで480p,720p,1080pで実験を行った最初のハイパーネットワークアプローチである。
- 参考スコア(独自算出の注目度): 51.99176811574457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Implicit Neural Representations (INRs) have recently demonstrated impressive performance for video compression. However, since a separate INR must be overfit for each video, scaling to high-resolution videos while maintaining encoding efficiency remains a significant challenge. Hypernetwork-based approaches predict INR weights (hyponetworks) for unseen videos at high speeds, but with low quality, large compressed size, and prohibitive memory needs at higher resolutions. We address these fundamental limitations through three key contributions: (1) an approach that decomposes the weight prediction task spatially and temporally, by breaking short video segments into patch tubelets, to reduce the pretraining memory overhead by 20$\times$; (2) a residual-based storage scheme that captures only differences between consecutive segment representations, significantly reducing bitstream size; and (3) a temporal coherence regularization framework that encourages changes in the weight space to be correlated with video content. Our proposed method, TeCoNeRV, achieves substantial improvements of 2.47dB and 5.35dB PSNR over the baseline at 480p and 720p on UVG, with 36% lower bitrates and 1.5-3$\times$ faster encoding speeds. With our low memory usage, we are the first hypernetwork approach to demonstrate results at 480p, 720p and 1080p on UVG, HEVC and MCL-JCV. Our project page is available at https://namithap10.github.io/teconerv/ .
- Abstract(参考訳): Inlicit Neural Representations (INRs) は、最近ビデオ圧縮における印象的な性能を実証した。
しかし、個別のINRはビデオごとに過度に適合しなければならないため、エンコーディング効率を維持しながら高解像度の動画にスケールすることは大きな課題である。
ハイパーネットワークベースのアプローチは、高速で見えないビデオのINR重み(ハイポネトワーク)を予測するが、低品質で圧縮サイズが大きく、高解像度のメモリを必要とする。
重み予測タスクを空間的・時間的に分解するアプローチとして,(1)短いビデオセグメントをパッチ管に分割し,事前学習するメモリオーバーヘッドを20$\times$に減らし,(2)連続セグメント表現の差分のみをキャプチャし,ビットストリームサイズを大幅に減らし,(3)重み空間の変化をビデオコンテンツに関連付けるための時間的コヒーレンス正規化フレームワークを提案する。
提案手法であるTeCoNeRVは,480p,720pのベースラインで2.47dBと5.35dBのPSNRを大幅に改善し,36%の低ビットレートと1.5-3$\times$高速符号化速度を実現した。
低メモリ使用量では、UVG、HEVC、MCL-JCVで480p、720p、1080pで結果を示す最初のハイパーネットワークアプローチです。
私たちのプロジェクトページはhttps://namithap10.github.io/teconerv/ で公開されています。
関連論文リスト
- HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming [58.55148690302855]
HiStreamは、3つの軸にわたる冗長性を体系的に低減する効率的な自動回帰フレームワークである。
1080pのベンチマークでは、主要なHiStreamモデル(i+ii)は最先端のビジュアル品質を実現し、Wan2.1ベースラインと比較して76.2倍高速なデノイングを実現した。
より高速なHiStream+は3つの最適化を全て適用し、ベースライン上で107.5倍の高速化を実現しています。
論文 参考訳(メタデータ) (2025-12-24T18:59:58Z) - Efficient Neural Video Representation with Temporally Coherent Modulation [6.339750087526286]
Inlicit Neural representations (INR) は様々な分野にまたがって成功している。
本稿では,映像の動的特徴を捉える新しいフレームワークである時間的コヒーレント変調(NVTM)を用いたニューラルビデオ表現を提案する。
本フレームワークは,時間的に時間的に対応可能な画素を一度に実現し,ビデオ品質の適切な符号化速度を実現する。
論文 参考訳(メタデータ) (2025-05-01T06:20:42Z) - HiNeRV: Video Compression with Hierarchical Encoding-based Neural
Representation [14.088444622391501]
Implicit Representations (INRs) は画像やビデオのコンテントの表現や圧縮に使われてきた。
既存のINRベースの手法は、ビデオ圧縮の最先端技術に匹敵する速度性能を達成できなかった。
軽量層と階層的位置符号化を組み合わせたINRであるHiNeRVを提案する。
論文 参考訳(メタデータ) (2023-06-16T12:59:52Z) - HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。
ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。
コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-04-05T17:55:04Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - NIRVANA: Neural Implicit Representations of Videos with Adaptive
Networks and Autoregressive Patch-wise Modeling [37.51397331485574]
Inlicit Neural Representations (INR)は、最近、高品質なビデオ圧縮のための強力なツールであることが示されている。
これらの手法は、より長いビデオや高解像度にスケールしない固定されたアーキテクチャを持つ。
我々は,動画をフレーム群として扱うNIRVANAを提案し,パッチワイズ予測を行うグループ毎に個別のネットワークを適合させる。
論文 参考訳(メタデータ) (2022-12-30T08:17:02Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。