論文の概要: SSNVC: Single Stream Neural Video Compression with Implicit Temporal Information
- arxiv url: http://arxiv.org/abs/2406.07645v1
- Date: Tue, 11 Jun 2024 18:20:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 21:25:46.315272
- Title: SSNVC: Single Stream Neural Video Compression with Implicit Temporal Information
- Title(参考訳): SSNVC:意図しないテンポラル情報を用いた単一ストリームニューラルビデオ圧縮
- Authors: Feng Wang, Haihang Ruan, Zhihuang Xie, Ronggang Wang, Xiangyu Yue,
- Abstract要約: SSNVCは、複数のベンチマークで最先端のパフォーマンスを達成でき、圧縮プロセスとトレーニングプロセスを大幅に単純化することができる。
実験により、SSNVCは複数のベンチマークで最先端のパフォーマンスを達成でき、圧縮プロセスとトレーニングプロセスを大幅に単純化できることが示された。
- 参考スコア(独自算出の注目度): 21.518035137716154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Neural Video Compression (NVC) techniques have achieved remarkable performance, even surpassing the best traditional lossy video codec. However, most existing NVC methods heavily rely on transmitting Motion Vector (MV) to generate accurate contextual features, which has the following drawbacks. (1) Compressing and transmitting MV requires specialized MV encoder and decoder, which makes modules redundant. (2) Due to the existence of MV Encoder-Decoder, the training strategy is complex. In this paper, we present a noval Single Stream NVC framework (SSNVC), which removes complex MV Encoder-Decoder structure and uses a one-stage training strategy. SSNVC implicitly use temporal information by adding previous entropy model feature to current entropy model and using previous two frame to generate predicted motion information at the decoder side. Besides, we enhance the frame generator to generate higher quality reconstructed frame. Experiments demonstrate that SSNVC can achieve state-of-the-art performance on multiple benchmarks, and can greatly simplify compression process as well as training process.
- Abstract(参考訳): 近年、ニューラルビデオ圧縮(NVC)技術は、従来の失われたビデオコーデックを超越したパフォーマンスを達成している。
しかし、既存のNVC手法の多くは、正確なコンテキスト特徴を生成するために、MV(Motion Vector)の送信に大きく依存している。
1) MVの圧縮と送信には,モジュールを冗長にする特殊なMVエンコーダとデコーダが必要である。
2)MVエンコーダデコーダが存在するため,訓練戦略は複雑である。
本稿では,複雑なMVエンコーダ・デコーダ構造を除去し,一段階のトレーニング戦略を用いる,Noval Single Stream NVC framework (SSNVC)を提案する。
SSNVCは、現在のエントロピーモデルに以前のエントロピーモデル機能を追加し、以前の2フレームを使用してデコーダ側で予測された動き情報を生成することで、時間情報を暗黙的に利用する。
さらに,フレーム生成装置を改良し,高品質な再構成フレームを生成する。
実験により、SSNVCは複数のベンチマークで最先端のパフォーマンスを達成でき、圧縮プロセスとトレーニングプロセスを大幅に単純化できることが示された。
関連論文リスト
- Motion Free B-frame Coding for Neural Video Compression [0.0]
本稿では,上記の2つの典型的なアーキテクチャの欠点に対処する新しいアプローチを提案する。
モーションフリーアプローチの利点は2つある: ネットワークの符号化効率を改善し、計算複雑性を著しく低減する。
実験の結果,提案フレームワークはHEVCクラスBデータセット上でのSOTAディープ・ニューラルビデオ圧縮ネットワークよりも優れていた。
論文 参考訳(メタデータ) (2024-11-26T07:03:11Z) - NVRC: Neural Video Representation Compression [13.131842990481038]
我々は、新しいINRベースのビデオ圧縮フレームワーク、Neural Video Representation Compression (NVRC)を提案する。
NVRCは初めて、INRベースのビデオをエンドツーエンドで最適化することができる。
実験の結果,NVRCは従来のベンチマークエントロピーよりも優れていた。
論文 参考訳(メタデータ) (2024-09-11T16:57:12Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Transformer-based Image Compression [18.976159633970177]
Transformer-based Image Compression (TIC) アプローチは、標準変分オートエンコーダ(VAE)アーキテクチャをメインおよびハイパーエンコーダデコーダのペアで再利用する。
TICは、Deep Convolutional Neural Network(CNN)ベースの学習画像符号化(lic)メソッドや、最近承認されたVersatile Video Coding(VVC)標準のハンドクラフトルールベースの内部プロファイルなど、最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-11-12T13:13:20Z) - Learning to Compress Videos without Computing Motion [39.46212197928986]
動き推定を必要としない新しいディープラーニングビデオ圧縮アーキテクチャを提案する。
本フレームワークでは,映像のフレーム差分を映像表現として利用することにより,映像の動きに固有の規則性を利用する。
実験の結果,Motionless VIdeo Codec (MOVI-Codec) と呼ばれる圧縮モデルは,動きを計算せずに効率的に動画を圧縮する方法を学習することがわかった。
論文 参考訳(メタデータ) (2020-09-29T15:49:25Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z) - Neural Video Coding using Multiscale Motion Compensation and
Spatiotemporal Context Model [45.46660511313426]
エンド・ツー・エンドのディープ・ニューラル・ビデオ・コーディング・フレームワーク(NVC)を提案する。
フレーム内画素、フレーム間運動、フレーム間補償残差の相関を利用するために、共同空間および時間的事前集約(PA)を備えた可変オートエンコーダ(VAE)を使用する。
NVCは低遅延因果条件で評価され、H.265/HEVC、H.264/AVC、その他の学習ビデオ圧縮法と比較される。
論文 参考訳(メタデータ) (2020-07-09T06:15:17Z) - M-LVC: Multiple Frames Prediction for Learned Video Compression [111.50760486258993]
低レイテンシシナリオのためのエンドツーエンドの学習ビデオ圧縮方式を提案する。
提案方式では, 移動ベクトル(MV)場を現在のフレームと前のフレームの間で計算する。
実験の結果,提案手法は,低遅延モードにおける既存の学習ビデオ圧縮法よりも優れていた。
論文 参考訳(メタデータ) (2020-04-21T20:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。