論文の概要: LRConv-NeRV: Low Rank Convolution for Efficient Neural Video Compression
- arxiv url: http://arxiv.org/abs/2603.18261v1
- Date: Wed, 18 Mar 2026 20:31:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.840927
- Title: LRConv-NeRV: Low Rank Convolution for Efficient Neural Video Compression
- Title(参考訳): LRConv-NeRV: 効率的なニューラルビデオ圧縮のための低ランクコンボリューション
- Authors: Tamer Shanableh,
- Abstract要約: 提案するLRConv-NeRVは,高密度な3x3畳み込み層を低ランク分離型畳み込みに置き換える,効率的なNeRV変種である。
実験では、LRConvを最終デコーダ段階のみに適用するとデコーダの複雑さが68%減少することを示した。
その結果、LRConv-NeRVは、低精度かつリソース制約の条件下での効率的なニューラルビデオデコーディングの潜在的なアーキテクチャ上の代替品として確立された。
- 参考スコア(独自算出の注目度): 2.7920304852537527
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Neural Representations for Videos (NeRV) encode entire video sequences within neural network parameters, offering an alternative paradigm to conventional video codecs. However, the convolutional decoder of NeRV remains computationally expensive and memory intensive, limiting its deployment in resource-constrained environments. This paper proposes LRConv-NeRV, an efficient NeRV variant that replaces selected dense 3x3 convolutional layers with structured low-rank separable convolutions, trained end-to-end within the decoder architecture. By progressively applying low-rank factorization from the largest to earlier decoder stages, LRConv-NeRV enables controllable trade-offs between reconstruction quality and efficiency. Extensive experiments demonstrate that applying LRConv only to the final decoder stage reduces decoder complexity by 68%, from 201.9 to 64.9 GFLOPs, and model size by 9.3%, while incurring negligible quality loss and achieving approximately 9.2% bitrate reduction. Under INT8 post-training quantization, LRConv-NeRV preserves reconstruction quality close to the dense NeRV baseline, whereas more aggressive factorization of early decoder stages leads to disproportionate quality degradation. Compared to existing work under layer-aligned settings, LRConv-NeRV achieves a more favorable efficiency versus quality trade-off, offering substantial GFLOPs and parameter reductions while maintaining higher PSNR/MS-SSIM and improved temporal stability. Temporal flicker analysis using LPIPS further shows that the proposed solution preserves temporal coherence close to the NeRV baseline, results establish LRConv-NeRV as a potential architectural alternative for efficient neural video decoding under low-precision and resource-constrained settings.
- Abstract(参考訳): Neural Representations for Videos (NeRV)は、従来のビデオコーデックに代わるパラダイムを提供する。
しかし、NeRVの畳み込みデコーダは計算コストが高く、メモリ集約的であり、リソース制約のある環境への展開を制限している。
提案するLRConv-NeRVは,高密度な3x3畳み込み層を構造化した低ランク分離型畳み込みに置き換え,デコーダアーキテクチャ内でのエンドツーエンドの訓練を行う。
LRConv-NeRVは、最大から初期のデコーダステージへの低ランク分解を段階的に適用することにより、再構成品質と効率のトレードオフを制御できる。
LRConvを最終デコーダ段階にのみ適用するとデコーダの複雑さが68%減少し、201.9から64.9 GFLOPs、モデルサイズが9.3%減少し、無視できない品質損失が発生し、約9.2%のビットレート低下が達成される。
INT8後の量子化の下では、LRConv-NeRVは高密度のNeRVベースラインに近い再構成品質を維持し、一方初期のデコーダステージのより積極的な分解は不均質な品質劣化をもたらす。
LRConv-NeRVは、層整列設定下での既存の作業と比較して、高いPSNR/MS-SSIMを維持しながら、実質的なGFLOPとパラメータ削減を実現し、時間的安定性を改善した。
LPIPSを用いた時間的フリック解析により,提案手法はNeRVベースラインに近い時間的コヒーレンスを保ち,低精度・資源制約条件下での効率的なニューラルビデオデコーディングのためのアーキテクチャ上の代替手段としてLRConv-NeRVを確立した。
関連論文リスト
- TeCoNeRV: Leveraging Temporal Coherence for Compressible Neural Representations for Videos [51.99176811574457]
Inlicit Neural Representations (INRs) は、最近ビデオ圧縮における印象的な性能を実証した。
しかし、エンコーディング効率を維持しながら高解像度ビデオへのスケーリングは依然として大きな課題である。
3つの重要なコントリビューションを通じて、これらの基本的な制限に対処します。
我々は,UVG,HEVC,MCL-JCVで480p,720p,1080pで実験を行った最初のハイパーネットワークアプローチである。
論文 参考訳(メタデータ) (2026-02-18T18:59:55Z) - KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。
デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。
キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文 参考訳(メタデータ) (2025-07-15T12:52:12Z) - FANeRV: Frequency Separation and Augmentation based Neural Representation for Video [32.35716293561769]
ビデオのための周波数分離と拡張に基づくニューラル表現(FANeRV)を提案する。
FANeRVは離散ウェーブレット変換を用いて入力フレームを高周波数成分と低周波数成分に明示的に分離する。
特別に設計されたゲートネットワークは、これらの周波数成分を効果的に融合して最適な再構成を行う。
論文 参考訳(メタデータ) (2025-04-09T10:19:35Z) - SING: Semantic Image Communications using Null-Space and INN-Guided Diffusion Models [52.40011613324083]
近年, 無線画像伝送において, 共用音源チャネル符号化システム (DeepJSCC) が顕著な性能を発揮している。
既存の手法では、送信された画像とレシーバーの再構成されたバージョンとの間の歪みを最小限に抑えることに重点を置いており、しばしば知覚的品質を見落としている。
逆問題として,破損した再構成画像から高品質な画像の復元を定式化する新しいフレームワークであるSINGを提案する。
論文 参考訳(メタデータ) (2025-03-16T12:32:11Z) - PNeRV: Enhancing Spatial Consistency via Pyramidal Neural Representation for Videos [40.94458611212317]
動画用ピラミッド型ニューラル表現(PNeRV)について紹介する。
マルチスケール情報接続上に構築されており、軽量な再スケーリング演算子、Kronecker Fully- connected layer (KFc)、Selective Memory (BSM) 機構を備えている。
PNeRVはPSNRが+4.49dB、UVGが231%増加し、DAVISが+3.28dB、FVDが634%増加した。
論文 参考訳(メタデータ) (2024-04-13T07:50:17Z) - VQ-NeRV: A Vector Quantized Neural Representation for Videos [3.6662666629446043]
Inlicit Neural representations (INR)は、ニューラルネットワーク内のビデオのエンコーディングに優れ、ビデオ圧縮やデノイングといったコンピュータビジョンタスクにおける約束を示す。
本稿では,新しいコンポーネントであるVQ-NeRVブロックを統合した,高度なU字型アーキテクチャであるVector Quantized-NeRV(VQ-NeRV)を紹介する。
このブロックには、ネットワークの浅い残差特徴とフレーム間の残差情報を効果的に識別するコードブック機構が組み込まれている。
論文 参考訳(メタデータ) (2024-03-19T03:19:07Z) - NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - HiNeRV: Video Compression with Hierarchical Encoding-based Neural
Representation [14.088444622391501]
Implicit Representations (INRs) は画像やビデオのコンテントの表現や圧縮に使われてきた。
既存のINRベースの手法は、ビデオ圧縮の最先端技術に匹敵する速度性能を達成できなかった。
軽量層と階層的位置符号化を組み合わせたINRであるHiNeRVを提案する。
論文 参考訳(メタデータ) (2023-06-16T12:59:52Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Distortion-Aware Loop Filtering of Intra 360^o Video Coding with
Equirectangular Projection [81.63407194858854]
等角射影(ERP)フォーマットで投影された360$o$ビデオの符号化性能を向上させるため,歪みを考慮したループフィルタリングモデルを提案する。
提案モジュールは、符号化ユニット(CU)パーティションマスクに基づいてコンテンツ特性を分析し、部分的畳み込みによって処理し、指定された領域を活性化する。
論文 参考訳(メタデータ) (2022-02-20T12:00:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。