論文の概要: Learned Video Compression via Heterogeneous Deformable Compensation
Network
- arxiv url: http://arxiv.org/abs/2207.04589v3
- Date: Thu, 29 Jun 2023 07:05:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-06-30 19:48:59.415397
- Title: Learned Video Compression via Heterogeneous Deformable Compensation
Network
- Title(参考訳): 不均一変形補償ネットワークによる学習ビデオ圧縮
- Authors: Huairui Wang, Zhenzhong Chen, Chang Wen Chen
- Abstract要約: 不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 78.72508633457392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learned video compression has recently emerged as an essential research topic
in developing advanced video compression technologies, where motion
compensation is considered one of the most challenging issues. In this paper,
we propose a learned video compression framework via heterogeneous deformable
compensation strategy (HDCVC) to tackle the problems of unstable compression
performance caused by single-size deformable kernels in downsampled feature
domain. More specifically, instead of utilizing optical flow warping or
single-size-kernel deformable alignment, the proposed algorithm extracts
features from the two adjacent frames to estimate content-adaptive
heterogeneous deformable (HetDeform) kernel offsets. Then we transform the
reference features with the HetDeform convolution to accomplish motion
compensation. Moreover, we design a Spatial-Neighborhood-Conditioned Divisive
Normalization (SNCDN) to achieve more effective data Gaussianization combined
with the Generalized Divisive Normalization. Furthermore, we propose a
multi-frame enhanced reconstruction module for exploiting context and temporal
information for final quality enhancement. Experimental results indicate that
HDCVC achieves superior performance than the recent state-of-the-art learned
video compression approaches.
- Abstract(参考訳): 学習されたビデオ圧縮は、動画圧縮技術の発展において重要な研究テーマとして最近登場しており、動き補償は最も難しい問題の一つであると考えられている。
本稿では,一大変形性カーネルのダウンサンプリング機能領域における不安定な圧縮性能の問題に対処するために,異種変形性補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、光学フローワーピングやシングルサイズカーネルの変形可能なアライメントを利用する代わりに、提案アルゴリズムは、隣接する2つのフレームから特徴を抽出し、コンテンツ適応不均一な変形可能な(HetDeform)カーネルオフセットを推定する。
次に,HetDeform畳み込みによる参照特徴の変換を行い,動き補償を実現する。
さらに、より効率的なデータガウス化と一般化されたディビジョン正規化を実現するために、空間近傍分割正規化(SNCDN)を設計する。
さらに,最終品質向上のためのコンテキスト情報と時間情報を活用するマルチフレーム拡張再構成モジュールを提案する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
関連論文リスト
- Plug-and-Play Versatile Compressed Video Enhancement [57.62582951699999]
ビデオ圧縮はファイルのサイズを効果的に削減し、リアルタイムのクラウドコンピューティングを可能にする。
しかし、それは視覚的品質の犠牲となり、下流の視覚モデルの堅牢性に挑戦する。
本稿では,異なる圧縮条件下で動画を適応的に拡張する多言語対応拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-21T18:39:31Z) - Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。
本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。
我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-03-27T13:01:53Z) - Residual Learning and Filtering Networks for End-to-End Lossless Video Compression [3.0770091134672586]
既存の学習に基づくビデオ圧縮手法は、不正確な動き推定と不適切な動き補償構造に関連する課題に直面している。
本研究は,複数のキー操作を組み込んだエンドツーエンドビデオ圧縮手法を提案する。
提案手法は,映像圧縮における正確な動き推定と動き補償の課題に対処する。
論文 参考訳(メタデータ) (2025-03-11T18:51:36Z) - CANeRV: Content Adaptive Neural Representation for Video Compression [89.35616046528624]
映像圧縮のためのコンテンツ適応型ニューラル表現法(CANeRV)を提案する。
CANeRVは革新的なINRベースのビデオ圧縮ネットワークであり、各ビデオシーケンスの特定の内容に基づいて、構造最適化を適応的に行う。
CNeRVはH.266/VVCと最先端のINRベースの動画圧縮技術の両方を多種多様なビデオデータセットで上回り得ることを示す。
論文 参考訳(メタデータ) (2025-02-10T06:21:16Z) - Improved Video VAE for Latent Video Diffusion Model [55.818110540710215]
ビデオオートエンコーダ(VAE)は、ピクセルデータを低次元の潜在空間に圧縮することを目的としており、OpenAIのSoraで重要な役割を果たしている。
既存のVAEのほとんどは、時間空間圧縮のために3次元因果構造に事前訓練された画像VAEを注入する。
ビデオVAE(IV-VAE)をさらに改善するための新しいKTCアーキテクチャとGCConvモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-10T12:43:38Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - VCISR: Blind Single Image Super-Resolution with Video Compression
Synthetic Data [18.877077302923713]
本稿では,映像圧縮に基づく劣化モデルを用いて,ブラインドSISRタスクにおける低解像度画像データを合成する。
提案手法は既存の画像データセットに適用可能である。
SISR分解モデルにビデオ符号化アーティファクトを導入することで、ニューラルネットワークは、ビデオ圧縮劣化を復元する機能を備えた、画像の超解凍を可能にする。
論文 参考訳(メタデータ) (2023-11-02T05:24:19Z) - IBVC: Interpolation-driven B-frame Video Compression [68.18440522300536]
Bフレームビデオ圧縮は、双方向動作推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。
従来の学習アプローチでは、しばしば双方向の光フロー推定に依存するニューラルネットワークのPフレームコーデックをBフレームに直接拡張する。
これらの問題に対処するために,IBVC (Interpolation-B-frame Video Compression) という単純な構造を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:45:51Z) - Differentiable Resolution Compression and Alignment for Efficient Video
Classification and Retrieval [16.497758750494537]
本稿では,高解像度圧縮・アライメント機構を備えた効率的な映像表現ネットワークを提案する。
我々は、相性および非相性フレーム特徴を符号化するために、微分可能なコンテキスト対応圧縮モジュールを利用する。
我々は,異なる解像度のフレーム特徴間のグローバル時間相関を捉えるために,新しい解像度変換器層を導入する。
論文 参考訳(メタデータ) (2023-09-15T05:31:53Z) - Multi-Scale Deformable Alignment and Content-Adaptive Inference for
Flexible-Rate Bi-Directional Video Compression [8.80688035831646]
本稿では、エンドツーエンドの速度歪みに最適化された階層的双方向ビデオ圧縮のための適応型モーション補正モデルを提案する。
我々はゲインユニットを使用し、単一のモデルが複数のレート歪み動作ポイントで動作できるようにする。
実験により, 学習ビデオ符号化における先行技術に比較して, 最先端の速度歪み性能を示すことができた。
論文 参考訳(メタデータ) (2023-06-28T20:32:16Z) - Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed
Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。
これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。
我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文 参考訳(メタデータ) (2022-01-31T18:56:04Z) - COMISR: Compression-Informed Video Super-Resolution [76.94152284740858]
ウェブやモバイルデバイスのほとんどのビデオは圧縮され、帯域幅が制限されると圧縮は厳しい。
圧縮によるアーティファクトを導入せずに高解像度コンテンツを復元する圧縮インフォームドビデオ超解像モデルを提案する。
論文 参考訳(メタデータ) (2021-05-04T01:24:44Z) - Decomposition, Compression, and Synthesis (DCS)-based Video Coding: A
Neural Exploration via Resolution-Adaptive Learning [30.54722074562783]
入力映像をそれぞれの空間テクスチャフレーム(STF)に分解する。
次に,一般的なビデオコーダを用いて圧縮する。
最後に,デコードされたSTFとTMFをネイティブ入力と同じ解像度で合成し,高品質なビデオ再構成を実現する。
論文 参考訳(メタデータ) (2020-12-01T17:23:53Z) - Feedback Recurrent Autoencoder for Video Compression [14.072596106425072]
低レイテンシモードで動作する学習ビデオ圧縮のための新しいネットワークアーキテクチャを提案する。
提案手法は,高分解能UVGデータセット上でのMS-SSIM/レート性能を示す。
論文 参考訳(メタデータ) (2020-04-09T02:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。