Fugu-MT 論文翻訳(概要): VQ-NeRV: A Vector Quantized Neural Representation for Videos

論文の概要: VQ-NeRV: A Vector Quantized Neural Representation for Videos

arxiv url: http://arxiv.org/abs/2403.12401v1
Date: Tue, 19 Mar 2024 03:19:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 15:31:57.849795
Title: VQ-NeRV: A Vector Quantized Neural Representation for Videos
Title（参考訳）: VQ-NeRV:ビデオのためのベクトル量子化ニューラル表現
Authors: Yunjie Xu, Xiang Feng, Feiwei Qin, Ruiquan Ge, Yong Peng, Changmiao Wang,
Abstract要約: Inlicit Neural representations (INR)は、ニューラルネットワーク内のビデオのエンコーディングに優れ、ビデオ圧縮やデノイングといったコンピュータビジョンタスクにおける約束を示す。本稿では,新しいコンポーネントであるVQ-NeRVブロックを統合した,高度なU字型アーキテクチャであるVector Quantized-NeRV(VQ-NeRV)を紹介する。このブロックには、ネットワークの浅い残差特徴とフレーム間の残差情報を効果的に識別するコードブック機構が組み込まれている。
参考スコア（独自算出の注目度）: 3.6662666629446043
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Implicit neural representations (INR) excel in encoding videos within neural networks, showcasing promise in computer vision tasks like video compression and denoising. INR-based approaches reconstruct video frames from content-agnostic embeddings, which hampers their efficacy in video frame regression and restricts their generalization ability for video interpolation. To address these deficiencies, Hybrid Neural Representation for Videos (HNeRV) was introduced with content-adaptive embeddings. Nevertheless, HNeRV's compression ratios remain relatively low, attributable to an oversight in leveraging the network's shallow features and inter-frame residual information. In this work, we introduce an advanced U-shaped architecture, Vector Quantized-NeRV (VQ-NeRV), which integrates a novel component--the VQ-NeRV Block. This block incorporates a codebook mechanism to discretize the network's shallow residual features and inter-frame residual information effectively. This approach proves particularly advantageous in video compression, as it results in smaller size compared to quantized features. Furthermore, we introduce an original codebook optimization technique, termed shallow codebook optimization, designed to refine the utility and efficiency of the codebook. The experimental evaluations indicate that VQ-NeRV outperforms HNeRV on video regression tasks, delivering superior reconstruction quality (with an increase of 1-2 dB in Peak Signal-to-Noise Ratio (PSNR)), better bit per pixel (bpp) efficiency, and improved video inpainting outcomes.
Abstract（参考訳）: Inlicit Neural representations (INR)は、ニューラルネットワーク内のビデオのエンコーディングに優れ、ビデオ圧縮やデノイングといったコンピュータビジョンタスクにおける約束を示す。 INRベースのアプローチは、映像フレームの回帰効果を損なうコンテンツ非依存の埋め込みから、映像フレームを再構成し、映像補間における一般化能力を制限する。これらの欠陥に対処するため、Hybrid Neural Representation for Videos (HNeRV) がコンテンツ適応型埋め込みと共に導入された。それでも、HNeRVの圧縮比は比較的低いままであり、ネットワークの浅い特徴とフレーム間の残差情報を利用する際の監視によるものである。本稿では,Vector Quantized-NeRV (VQ-NeRV) という,新しいコンポーネントであるVQ-NeRVブロックを統合する,高度なU字型アーキテクチャを提案する。このブロックには、ネットワークの浅い残差特徴とフレーム間の残差情報を効果的に識別するコードブック機構が組み込まれている。このアプローチはビデオ圧縮において特に有利であり、量子化された特徴に比べてサイズが小さくなる。さらに,従来のコードブック最適化手法である浅層コードブック最適化を導入し,コードブックの有用性と効率性を向上する。実験により、VQ-NeRVはビデオレグレッションタスクにおいてHNeRVより優れており、(Pak Signal-to-Noise Ratio (PSNR)における1-2dBの増加とともに)より優れた再構成品質を実現し、ピクセル当たりのビット効率(bpp)が向上し、ビデオインパインティング結果が改善された。

関連論文リスト

NeRV-Diffusion: Diffuse Implicit Neural Representations for Video Synthesis [48.35964370809449]
NeRV-Diffusionは暗黙の潜伏ビデオ拡散モデルであり、ニューラルネットワークの重みを生成することによってビデオを合成する。フレームワイドな特徴マップにビデオをエンコードする従来のビデオトークンとは対照的に、NEV-Diffusionは圧縮して、統一されたニューラルネットワークとしてビデオを生成する。
論文参考訳（メタデータ） (2025-09-29T06:53:08Z)
MSNeRV: Neural Video Representation with Multi-Scale Feature Fusion [27.621656985302973]
Inlicit Neural representations (INRs) はビデオ圧縮の有望なアプローチとして登場した。既存のINRベースの手法は、ディテール集約的で高速に変化するビデオコンテンツを効果的に表現するのに苦労する。ニューラルビデオ表現のためのマルチスケール機能融合フレームワークMSNeRVを提案する。
論文参考訳（メタデータ） (2025-06-18T08:57:12Z)
CANeRV: Content Adaptive Neural Representation for Video Compression [89.35616046528624]
映像圧縮のためのコンテンツ適応型ニューラル表現法(CANeRV)を提案する。 CANeRVは革新的なINRベースのビデオ圧縮ネットワークであり、各ビデオシーケンスの特定の内容に基づいて、構造最適化を適応的に行う。 CNeRVはH.266/VVCと最先端のINRベースの動画圧縮技術の両方を多種多様なビデオデータセットで上回り得ることを示す。
論文参考訳（メタデータ） (2025-02-10T06:21:16Z)
MNeRV: A Multilayer Neural Representation for Videos [1.1079931610880582]
ビデオのための多層ニューラル表現(MNeRV)を提案し、新しいデコーダM-デコーダとそのマッチングエンコーダM-エンコーダを設計する。 MNeRVは、より多くのエンコーディング層とデコード層を持ち、冗長なモデルパラメータの問題を効果的に軽減する。ビデオレグレッション再構成の分野では、より少ないパラメータでより良い再現品質(+4.06 PSNR)を達成する。
論文参考訳（メタデータ） (2024-07-10T03:57:29Z)
NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。 NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文参考訳（メタデータ） (2024-02-28T13:00:32Z)
Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-28T08:32:19Z)
Progressive Fourier Neural Representation for Sequential Video Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文参考訳（メタデータ） (2023-06-20T06:02:19Z)
HiNeRV: Video Compression with Hierarchical Encoding-based Neural Representation [14.088444622391501]
Implicit Representations (INRs) は画像やビデオのコンテントの表現や圧縮に使われてきた。既存のINRベースの手法は、ビデオ圧縮の最先端技術に匹敵する速度性能を達成できなかった。軽量層と階層的位置符号化を組み合わせたINRであるHiNeRVを提案する。
論文参考訳（メタデータ） (2023-06-16T12:59:52Z)
DNeRV: Modeling Inherent Dynamics via Difference Neural Representation for Videos [53.077189668346705]
映像の差分表現(eRV) 我々はこれを制限関数の適合性とフレーム差の重要性の観点から分析する。 DNeRVは最先端のニューラル圧縮アプローチと競合する結果を得る。
論文参考訳（メタデータ） (2023-04-13T13:53:49Z)
HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文参考訳（メタデータ） (2023-04-05T17:55:04Z)
Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文参考訳（メタデータ） (2023-03-24T16:32:19Z)
CNeRV: Content-adaptive Neural Representation for Visual Data [54.99373641890767]
本稿では、自動エンコーダの一般化性と暗黙的表現の単純さとコンパクトさを組み合わせた、コンテンツ適応型埋め込み(CNeRV)によるニューラルビジュアル表現を提案する。我々は、トレーニング中にスキップされたフレーム(見えない画像)をはるかに上回りながら、トレーニング中に見られるフレームの再構築作業において、最先端の暗黙のニューラル表現であるNERVのパフォーマンスを一致させる。同じ遅延コード長と類似のモデルサイズで、CNeRVは、見えていない画像と見えない画像の両方の再構成においてオートエンコーダより優れている。
論文参考訳（メタデータ） (2022-11-18T18:35:43Z)
Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文参考訳（メタデータ） (2022-10-13T08:15:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。