論文の概要: MSNeRV: Neural Video Representation with Multi-Scale Feature Fusion
- arxiv url: http://arxiv.org/abs/2506.15276v1
- Date: Wed, 18 Jun 2025 08:57:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.603851
- Title: MSNeRV: Neural Video Representation with Multi-Scale Feature Fusion
- Title(参考訳): MSNeRV:マルチスケール機能融合によるニューラルビデオ表現
- Authors: Jun Zhu, Xinfeng Zhang, Lv Tang, JunHao Jiang,
- Abstract要約: Inlicit Neural representations (INRs) はビデオ圧縮の有望なアプローチとして登場した。
既存のINRベースの手法は、ディテール集約的で高速に変化するビデオコンテンツを効果的に表現するのに苦労する。
ニューラルビデオ表現のためのマルチスケール機能融合フレームワークMSNeRVを提案する。
- 参考スコア(独自算出の注目度): 27.621656985302973
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Implicit Neural representations (INRs) have emerged as a promising approach for video compression, and have achieved comparable performance to the state-of-the-art codecs such as H.266/VVC. However, existing INR-based methods struggle to effectively represent detail-intensive and fast-changing video content. This limitation mainly stems from the underutilization of internal network features and the absence of video-specific considerations in network design. To address these challenges, we propose a multi-scale feature fusion framework, MSNeRV, for neural video representation. In the encoding stage, we enhance temporal consistency by employing temporal windows, and divide the video into multiple Groups of Pictures (GoPs), where a GoP-level grid is used for background representation. Additionally, we design a multi-scale spatial decoder with a scale-adaptive loss function to integrate multi-resolution and multi-frequency information. To further improve feature extraction, we introduce a multi-scale feature block that fully leverages hidden features. We evaluate MSNeRV on HEVC ClassB and UVG datasets for video representation and compression. Experimental results demonstrate that our model exhibits superior representation capability among INR-based approaches and surpasses VTM-23.7 (Random Access) in dynamic scenarios in terms of compression efficiency.
- Abstract(参考訳): Implicit Neural representations (INR) はビデオ圧縮の有望なアプローチとして登場し、H.266/VVCのような最先端のコーデックに匹敵するパフォーマンスを実現している。
しかし、既存のINRベースの手法は、細部集約的かつ高速に変化する映像コンテンツを効果的に表現するのに苦労している。
この制限は主に、内部ネットワークの特徴の未利用と、ネットワーク設計におけるビデオ特有の考慮が欠如していることに起因している。
これらの課題に対処するために,ニューラルビデオ表現のためのマルチスケール機能融合フレームワークMSNeRVを提案する。
符号化の段階では、時間的ウィンドウを用いて時間的一貫性を高め、映像を複数のグループ・オブ・ピクチャーズ(GoP)に分割し、GoPレベルのグリッドを背景表現に使用する。
さらに,マルチレゾリューションとマルチ周波数情報を統合するために,スケール適応型損失関数を持つマルチスケール空間デコーダを設計する。
特徴抽出をさらに改善するため,隠れた特徴を完全に活用するマルチスケール特徴ブロックを導入する。
HEVC ClassB と UVG のデータセットを用いたビデオ表現と圧縮のための MSNeRV の評価を行った。
実験結果から,INRに基づくアプローチでは,圧縮効率の面でVTM-23.7(Random Access)よりも優れた表現能力を示し,動的シナリオでのVTM-23.7(Random Access)よりも優れていることが示された。
関連論文リスト
- Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - CANeRV: Content Adaptive Neural Representation for Video Compression [89.35616046528624]
映像圧縮のためのコンテンツ適応型ニューラル表現法(CANeRV)を提案する。
CANeRVは革新的なINRベースのビデオ圧縮ネットワークであり、各ビデオシーケンスの特定の内容に基づいて、構造最適化を適応的に行う。
CNeRVはH.266/VVCと最先端のINRベースの動画圧縮技術の両方を多種多様なビデオデータセットで上回り得ることを示す。
論文 参考訳(メタデータ) (2025-02-10T06:21:16Z) - NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - DNeRV: Modeling Inherent Dynamics via Difference Neural Representation
for Videos [53.077189668346705]
映像の差分表現(eRV)
我々はこれを制限関数の適合性とフレーム差の重要性の観点から分析する。
DNeRVは最先端のニューラル圧縮アプローチと競合する結果を得る。
論文 参考訳(メタデータ) (2023-04-13T13:53:49Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Neural Video Coding using Multiscale Motion Compensation and
Spatiotemporal Context Model [45.46660511313426]
エンド・ツー・エンドのディープ・ニューラル・ビデオ・コーディング・フレームワーク(NVC)を提案する。
フレーム内画素、フレーム間運動、フレーム間補償残差の相関を利用するために、共同空間および時間的事前集約(PA)を備えた可変オートエンコーダ(VAE)を使用する。
NVCは低遅延因果条件で評価され、H.265/HEVC、H.264/AVC、その他の学習ビデオ圧縮法と比較される。
論文 参考訳(メタデータ) (2020-07-09T06:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。