論文の概要: TinyNeRV: Compact Neural Video Representations via Capacity Scaling, Distillation, and Low-Precision Inference
- arxiv url: http://arxiv.org/abs/2604.09220v1
- Date: Fri, 10 Apr 2026 11:26:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.833777
- Title: TinyNeRV: Compact Neural Video Representations via Capacity Scaling, Distillation, and Low-Precision Inference
- Title(参考訳): TinyNeRV: キャパシティスケーリング、蒸留、低精度推論によるコンパクトなニューラルビデオ表現
- Authors: Muhammad Hannan Akhtar, Ihab Amer, Tamer Shanableh,
- Abstract要約: 暗黙的なニューラルビデオ表現は、ニューラルネットワークのパラメータ内の全ビデオシーケンスをエンコードする。
NeRV(Neural Representations for Videos)に関する最近の研究は、競争力のある再構成性能を実証している。
本稿では, 効率的な配置を実現するために設計された, 小型のNeRVアーキテクチャの体系化について述べる。
- 参考スコア(独自算出の注目度): 2.294014185517203
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Implicit neural video representations encode entire video sequences within the parameters of a neural network and enable constant time frame reconstruction. Recent work on Neural Representations for Videos (NeRV) has demonstrated competitive reconstruction performance while avoiding the sequential decoding process of conventional video codecs. However, most existing studies focus on moderate or high capacity models, leaving the behavior of extremely compact configurations required for constrained environments insufficiently explored. This paper presents a systematic study of tiny NeRV architectures designed for efficient deployment. Two lightweight configurations, NeRV-T and NeRV-T+, are introduced and evaluated across multiple video datasets in order to analyze how aggressive capacity reduction affects reconstruction quality, computational complexity, and decoding throughput. Beyond architectural scaling, the work investigates strategies for improving the performance of compact models without increasing inference cost. Knowledge distillation with frequency-aware focal supervision is explored to enhance reconstruction fidelity in low-capacity networks. In addition, the impact of lowprecision inference is examined through both post training quantization and quantization aware training to study the robustness of tiny models under reduced numerical precision. Experimental results demonstrate that carefully designed tiny NeRV variants can achieve favorable quality efficiency trade offs while substantially reducing parameter count, computational cost, and memory requirements. These findings provide insight into the practical limits of compact neural video representations and offer guidance for deploying NeRV style models in resource constrained and real-time environments. The official implementation is available at https: //github.com/HannanAkhtar/TinyNeRV-Implementation.
- Abstract(参考訳): 暗黙的なニューラルビデオ表現は、ニューラルネットワークのパラメータ内の全ビデオシーケンスをエンコードし、一定の時間フレーム再構築を可能にする。
NeRV(Neural Representations for Videos)に関する最近の研究は、従来のビデオコーデックの逐次復号処理を回避しつつ、競争力のある再構成性能を示した。
しかし、既存の研究の多くは中程度または高容量のモデルに焦点を当てており、制約された環境に必要となる極めてコンパクトな構成の挙動は十分に調査されていない。
本稿では, 効率的な配置を実現するために設計された, 小型のNeRVアーキテクチャの体系化について述べる。
NRV-TとNERV-T+という2つの軽量な構成を導入し、複数のビデオデータセットで評価し、アグレッシブな容量削減がリコンストラクション品質、計算複雑性、復号スループットにどのように影響するかを分析する。
この研究は、アーキテクチャスケーリング以外にも、推論コストを増大させることなくコンパクトモデルの性能を改善するための戦略を調査している。
低容量ネットワークにおける再構成忠実度を高めるために,周波数認識型焦点監視による知識蒸留について検討した。
さらに,低精度推論の影響について,ポストトレーニングの量子化と量子化の両面から検討し,小型モデルのロバスト性について数値的精度で検討した。
実験結果から, パラメータ数, 計算コスト, メモリ要件を大幅に削減しつつ, 良好な品質効率のトレードオフを実現することができることがわかった。
これらの知見は、コンパクトなニューラルビデオ表現の実用的限界についての洞察を与え、リソース制約とリアルタイム環境にNeRVスタイルのモデルをデプロイするためのガイダンスを提供する。
公式実装はhttps: //github.com/HannanAkhtar/TinyNeRV-Implementationで公開されている。
関連論文リスト
- LRConv-NeRV: Low Rank Convolution for Efficient Neural Video Compression [2.7920304852537527]
提案するLRConv-NeRVは,高密度な3x3畳み込み層を低ランク分離型畳み込みに置き換える,効率的なNeRV変種である。
実験では、LRConvを最終デコーダ段階のみに適用するとデコーダの複雑さが68%減少することを示した。
その結果、LRConv-NeRVは、低精度かつリソース制約の条件下での効率的なニューラルビデオデコーディングの潜在的なアーキテクチャ上の代替品として確立された。
論文 参考訳(メタデータ) (2026-03-18T20:31:59Z) - Enhancing Neural Video Compression of Static Scenes with Positive-Incentive Noise [51.028614105626154]
監視フィードやビデオテレフォニーストリームのような静的なシーンビデオは、ストレージ消費とネットワークトラフィックの圧倒的なシェアを占める。
従来の標準コーデックとニューラルビデオ圧縮(NVC)手法は、時間的冗長性の不十分な使用と、トレーニングデータとテストデータの間の重大な分散ギャップのために、これらのビデオを効率的にエンコードするのに苦労している。
静的シーンビデオのNVCに正のインセンティブノイズを組み込むことを提案し, 短時間の時間変化を正のインセンティブノイズとして再解釈し, モデル微調整を容易にする。
論文 参考訳(メタデータ) (2026-03-06T09:47:25Z) - SR-NeRV: Improving Embedding Efficiency of Neural Video Representation via Super-Resolution [0.0]
Inlicit Neural Representations (INR)は、様々な領域における複雑なシグナルをモデル化する能力において、大きな注目を集めている。
汎用超解像(SR)ネットワークを統合したINRに基づく映像表現フレームワークを提案する。
自然画像に事前訓練された専用SRネットワークに細部を復元することで,視覚的忠実度を向上させる。
論文 参考訳(メタデータ) (2025-04-30T03:31:40Z) - SING: Semantic Image Communications using Null-Space and INN-Guided Diffusion Models [52.40011613324083]
近年, 無線画像伝送において, 共用音源チャネル符号化システム (DeepJSCC) が顕著な性能を発揮している。
既存の手法では、送信された画像とレシーバーの再構成されたバージョンとの間の歪みを最小限に抑えることに重点を置いており、しばしば知覚的品質を見落としている。
逆問題として,破損した再構成画像から高品質な画像の復元を定式化する新しいフレームワークであるSINGを提案する。
論文 参考訳(メタデータ) (2025-03-16T12:32:11Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - VQ-NeRV: A Vector Quantized Neural Representation for Videos [3.6662666629446043]
Inlicit Neural representations (INR)は、ニューラルネットワーク内のビデオのエンコーディングに優れ、ビデオ圧縮やデノイングといったコンピュータビジョンタスクにおける約束を示す。
本稿では,新しいコンポーネントであるVQ-NeRVブロックを統合した,高度なU字型アーキテクチャであるVector Quantized-NeRV(VQ-NeRV)を紹介する。
このブロックには、ネットワークの浅い残差特徴とフレーム間の残差情報を効果的に識別するコードブック機構が組み込まれている。
論文 参考訳(メタデータ) (2024-03-19T03:19:07Z) - NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - CNeRV: Content-adaptive Neural Representation for Visual Data [54.99373641890767]
本稿では、自動エンコーダの一般化性と暗黙的表現の単純さとコンパクトさを組み合わせた、コンテンツ適応型埋め込み(CNeRV)によるニューラルビジュアル表現を提案する。
我々は、トレーニング中にスキップされたフレーム(見えない画像)をはるかに上回りながら、トレーニング中に見られるフレームの再構築作業において、最先端の暗黙のニューラル表現であるNERVのパフォーマンスを一致させる。
同じ遅延コード長と類似のモデルサイズで、CNeRVは、見えていない画像と見えない画像の両方の再構成においてオートエンコーダより優れている。
論文 参考訳(メタデータ) (2022-11-18T18:35:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。