論文の概要: Video Compression with Hierarchical Temporal Neural Representation
- arxiv url: http://arxiv.org/abs/2601.17743v1
- Date: Sun, 25 Jan 2026 08:26:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.31137
- Title: Video Compression with Hierarchical Temporal Neural Representation
- Title(参考訳): 階層型時間的ニューラル表現を用いたビデオ圧縮
- Authors: Jun Zhu, Xinfeng Zhang, Lv Tang, Junhao Jiang, Gai Zhang, Jia Wang,
- Abstract要約: 本稿では,ビデオのための時間階層型ニューラル表現TeNeRVを提案する。
まず、Inter-Frame Feature Fusion (IFF)モジュールが隣接するフレームから特徴を集約し、局所的時間的コヒーレンスを強制する。
第二に、GoP-Adaptive Modulation(GAM)メカニズムは、ビデオをGroups-of-Pictureに分割し、グループ固有の事前学習を行う。
大規模な実験により、TeNeRVは既存のINR法よりも高い速度歪曲性能を示している。
- 参考スコア(独自算出の注目度): 31.60687845071296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video compression has recently benefited from implicit neural representations (INRs), which model videos as continuous functions. INRs offer compact storage and flexible reconstruction, providing a promising alternative to traditional codecs. However, most existing INR-based methods treat the temporal dimension as an independent input, limiting their ability to capture complex temporal dependencies. To address this, we propose a Hierarchical Temporal Neural Representation for Videos, TeNeRV. TeNeRV integrates short- and long-term dependencies through two key components. First, an Inter-Frame Feature Fusion (IFF) module aggregates features from adjacent frames, enforcing local temporal coherence and capturing fine-grained motion. Second, a GoP-Adaptive Modulation (GAM) mechanism partitions videos into Groups-of-Pictures and learns group-specific priors. The mechanism modulates network parameters, enabling adaptive representations across different GoPs. Extensive experiments demonstrate that TeNeRV consistently outperforms existing INR-based methods in rate-distortion performance, validating the effectiveness of our proposed approach.
- Abstract(参考訳): ビデオ圧縮は、ビデオを連続関数としてモデル化する暗黙のニューラル表現(INR)の恩恵を受けている。
INRはコンパクトなストレージとフレキシブルな再構築を提供し、従来のコーデックに代わる有望な代替手段を提供する。
しかし、既存のINRベースのほとんどの手法は、時間次元を独立した入力として扱い、複雑な時間的依存関係をキャプチャする能力を制限する。
そこで本稿では,ビデオのための階層型時間的ニューラル表現TeNeRVを提案する。
TeNeRVは2つのキーコンポーネントを通じて短期および長期の依存関係を統合する。
まず、Inter-Frame Feature Fusion (IFF)モジュールは、隣接するフレームから特徴を集約し、局所的な時間的コヒーレンスを強制し、きめ細かい動きをキャプチャする。
第二に、GoP-Adaptive Modulation(GAM)メカニズムは、ビデオをGroups-of-Pictureに分割し、グループ固有の事前学習を行う。
このメカニズムはネットワークパラメータを変調し、異なるGoP間の適応表現を可能にする。
大規模な実験により,TeNeRVは既存のINR法よりも高い速度歪み性能を示し,提案手法の有効性を検証した。
関連論文リスト
- CANeRV: Content Adaptive Neural Representation for Video Compression [89.35616046528624]
映像圧縮のためのコンテンツ適応型ニューラル表現法(CANeRV)を提案する。
CANeRVは革新的なINRベースのビデオ圧縮ネットワークであり、各ビデオシーケンスの特定の内容に基づいて、構造最適化を適応的に行う。
CNeRVはH.266/VVCと最先端のINRベースの動画圧縮技術の両方を多種多様なビデオデータセットで上回り得ることを示す。
論文 参考訳(メタデータ) (2025-02-10T06:21:16Z) - PNeRV: A Polynomial Neural Representation for Videos [28.302862266270093]
Inlicit Neural Representations on videoの抽出は、時間次元の追加によるユニークな課題を生じさせる。
PNeRV(Polynomial Neural Representation for Videos)を紹介する。
PNeRVは、INRの領域でビデオデータによって引き起こされる課題を緩和するが、高度なビデオ処理と分析のための新たな道を開く。
論文 参考訳(メタデータ) (2024-06-27T16:15:22Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - DNeRV: Modeling Inherent Dynamics via Difference Neural Representation
for Videos [53.077189668346705]
映像の差分表現(eRV)
我々はこれを制限関数の適合性とフレーム差の重要性の観点から分析する。
DNeRVは最先端のニューラル圧縮アプローチと競合する結果を得る。
論文 参考訳(メタデータ) (2023-04-13T13:53:49Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - Group-based Bi-Directional Recurrent Wavelet Neural Networks for Video
Super-Resolution [4.9136996406481135]
ビデオ超解像(VSR)は、低解像度(LR)フレームから高解像度(HR)フレームを推定することを目的としている。
VSRの鍵となる課題は、フレーム内の空間的相関と連続フレーム間の時間的依存を効果的に活用することにある。
論文 参考訳(メタデータ) (2021-06-14T06:36:13Z) - A Deep-Unfolded Reference-Based RPCA Network For Video
Foreground-Background Separation [86.35434065681925]
本稿では,ロバスト主成分分析(RPCA)問題に対するディープアンフォールディングに基づくネットワーク設計を提案する。
既存の設計とは異なり,本手法は連続するビデオフレームのスパース表現間の時間的相関をモデル化することに焦点を当てている。
移動MNISTデータセットを用いた実験により、提案したネットワークは、ビデオフォアグラウンドとバックグラウンドの分離作業において、最近提案された最先端のRPCAネットワークより優れていることが示された。
論文 参考訳(メタデータ) (2020-10-02T11:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。