論文の概要: Augmented Deep Contexts for Spatially Embedded Video Coding
- arxiv url: http://arxiv.org/abs/2505.05309v1
- Date: Thu, 08 May 2025 14:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.92804
- Title: Augmented Deep Contexts for Spatially Embedded Video Coding
- Title(参考訳): 空間埋め込みビデオ符号化のための拡張された深層文脈
- Authors: Yifan Bian, Chuanbo Tang, Li Li, Dong Liu,
- Abstract要約: ほとんどのニューラルビデオコーデック(NVC)は、時間のみのコンテキストを生成するために時間参照のみを使用する。
空間参照のために低解像度映像を圧縮した空間埋め込みビデオコーデック(SEVC)を提案する。
我々のSEVCは、大きな動きや出現する物体を扱う際の制限を効果的に軽減し、また以前の最先端のNVCよりも11.9%も削減します。
- 参考スコア(独自算出の注目度): 8.213635577747638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most Neural Video Codecs (NVCs) only employ temporal references to generate temporal-only contexts and latent prior. These temporal-only NVCs fail to handle large motions or emerging objects due to limited contexts and misaligned latent prior. To relieve the limitations, we propose a Spatially Embedded Video Codec (SEVC), in which the low-resolution video is compressed for spatial references. Firstly, our SEVC leverages both spatial and temporal references to generate augmented motion vectors and hybrid spatial-temporal contexts. Secondly, to address the misalignment issue in latent prior and enrich the prior information, we introduce a spatial-guided latent prior augmented by multiple temporal latent representations. At last, we design a joint spatial-temporal optimization to learn quality-adaptive bit allocation for spatial references, further boosting rate-distortion performance. Experimental results show that our SEVC effectively alleviates the limitations in handling large motions or emerging objects, and also reduces 11.9% more bitrate than the previous state-of-the-art NVC while providing an additional low-resolution bitstream. Our code and model are available at https://github.com/EsakaK/SEVC.
- Abstract(参考訳): ほとんどのニューラルビデオコーデック(NVC)は、時間のみのコンテキストを生成するために時間参照のみを使用する。
これらの時間限定のNVCは、コンテキストが限られており、前もって不一致なため、大きな動きや出現するオブジェクトを処理できない。
この制限を緩和するために,低解像度映像を空間参照のために圧縮する空間埋め込みビデオコーデック(SEVC)を提案する。
まず、このSEVCは、時空間参照と時空間参照の両方を利用して、拡張運動ベクトルとハイブリッド時空間コンテキストを生成する。
次に,複数の時間的潜伏表現による空間誘導型潜伏前拡張を導入し,事前情報を充実させ,不整合問題に対処する。
最後に、空間参照に対する品質適応ビット割り当てを学習するための共同時空間最適化を設計し、さらなる速度歪み性能を向上する。
実験の結果、SEVCは大きな動きや出現する物体の処理の限界を効果的に軽減し、また従来のNVCよりも11.9%のビットレートを低減し、さらに低解像度のビットストリームを提供することがわかった。
私たちのコードとモデルはhttps://github.com/EsakaK/SEVC.comで公開されています。
関連論文リスト
- Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。
従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。
本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。
本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文 参考訳(メタデータ) (2025-03-26T01:47:42Z) - Towards Practical Real-Time Neural Video Compression [60.390180067626396]
我々は,高圧縮比,低レイテンシ,広範汎用性を実現するために設計された実用的リアルタイムニューラルビデオ(NVC)を紹介する。
実験により,提案したDCVC-RTは1080pビデオに対して125.2/112.8フレーム(毎秒125.2/112.8フレーム)の高速符号化を実現し,H.266/VTMと比較して21%のfpsを節約できた。
論文 参考訳(メタデータ) (2025-02-28T06:32:23Z) - BF-STVSR: B-Splines and Fourier-Best Friends for High Fidelity Spatial-Temporal Video Super-Resolution [14.082598088990352]
ビデオの空間的特徴と時間的特徴をよりよく表現するために,2つのキーモジュールを備えたC-STVSRフレームワークであるBF-STVSRを提案する。
提案手法は,PSNR や SSIM など様々な指標の最先端性を実現し,空間的詳細化や時間的整合性の向上を図っている。
論文 参考訳(メタデータ) (2025-01-19T13:29:41Z) - Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。
既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。
本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-12-23T18:58:24Z) - Spatial Decomposition and Temporal Fusion based Inter Prediction for
Learned Video Compression [59.632286735304156]
学習ビデオ圧縮のための空間分解と時間融合に基づく相互予測を提案する。
SDDに基づく動きモデルと長時間の時間的融合により,提案した学習ビデオはより正確な相互予測コンテキストを得ることができる。
論文 参考訳(メタデータ) (2024-01-29T03:30:21Z) - Orthogonal Temporal Interpolation for Zero-Shot Video Recognition [45.53856045374685]
ゼロショットビデオ認識(ゼロショットビデオ認識、ZSVR)は、モデルトレーニングプロセス中に見たことのないビデオカテゴリの認識を目的としたタスクである。
近年の視覚言語モデル (VLM) は, 大規模画像テキストペアで事前訓練されている。
論文 参考訳(メタデータ) (2023-08-14T02:26:49Z) - Neural Video Compression with Diverse Contexts [25.96187914295921]
本稿では,時間次元と空間次元の両方において,文脈の多様性を高めることを提案する。
実験の結果,従来のSOTA NVCよりも23.5%の節約が得られた。
論文 参考訳(メタデータ) (2023-02-28T08:35:50Z) - VideoINR: Learning Video Implicit Neural Representation for Continuous
Space-Time Super-Resolution [75.79379734567604]
ビデオインプリシットニューラル表現(Video Implicit Neural Representation, VideoINR)は任意の空間解像度とフレームレートの映像にデコード可能であることを示す。
本稿では,最新のSTVSR手法を用いて,一般的なアップサンプリングスケールにおいて,ビデオINRが競合性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-06-09T17:45:49Z) - Decomposition, Compression, and Synthesis (DCS)-based Video Coding: A
Neural Exploration via Resolution-Adaptive Learning [30.54722074562783]
入力映像をそれぞれの空間テクスチャフレーム(STF)に分解する。
次に,一般的なビデオコーダを用いて圧縮する。
最後に,デコードされたSTFとTMFをネイティブ入力と同じ解像度で合成し,高品質なビデオ再構成を実現する。
論文 参考訳(メタデータ) (2020-12-01T17:23:53Z) - Neural Video Coding using Multiscale Motion Compensation and
Spatiotemporal Context Model [45.46660511313426]
エンド・ツー・エンドのディープ・ニューラル・ビデオ・コーディング・フレームワーク(NVC)を提案する。
フレーム内画素、フレーム間運動、フレーム間補償残差の相関を利用するために、共同空間および時間的事前集約(PA)を備えた可変オートエンコーダ(VAE)を使用する。
NVCは低遅延因果条件で評価され、H.265/HEVC、H.264/AVC、その他の学習ビデオ圧縮法と比較される。
論文 参考訳(メタデータ) (2020-07-09T06:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。