論文の概要: Decomposition, Compression, and Synthesis Based Video Coding: A Neural
Approach Through Reference-Based Super Resolution
- arxiv url: http://arxiv.org/abs/2012.00650v2
- Date: Sun, 25 Apr 2021 06:16:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 19:35:22.100409
- Title: Decomposition, Compression, and Synthesis Based Video Coding: A Neural
Approach Through Reference-Based Super Resolution
- Title(参考訳): 分解、圧縮、合成に基づくビデオ符号化:参照に基づく超解像によるニューラルアプローチ
- Authors: Ming Lu, Tong Chen, zhenyu Dai, Dong Wang, Dandan Ding, and Zhan Ma
- Abstract要約: 圧縮効率の向上を追求するためには、Down-Sampling based Video Coding (DSVC) が考えられる。
本研究は,分解におけるバイコビックサンプリングと圧縮に適合するVersatile Video Coding (VVC)を単純に適用する。
具体的には、運動補償ネットワーク(MCN)をTMF上に考案し、時間的運動特徴を効率よく調整し集約する。
- 参考スコア(独自算出の注目度): 23.89764282913584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In pursuit of higher compression efficiency, a potential solution is the
Down-Sampling based Video Coding (DSVC) where a input video is first downscaled
for encoding at a relatively lower resolution, and then decoded frames are
super-resolved through deep neural networks (DNNs). However, the coding gains
are often bounded due to either uniform resolution sampling induced severe loss
of high-frequency component, or insufficient information aggregation across
non-uniformly sampled frames in existing DSVC methods. To address this, we
propose to first decompose the input video into respective spatial texture
frames (STFs) at its native spatial resolution that preserve the rich spatial
details, and the other temporal motion frames (TMFs) at a lower spatial
resolution that retain the motion smoothness; then compress them together using
any popular video coder; and finally synthesize decoded STFs and TMFs for
high-fidelity video reconstruction at the same resolution as its native input.
This work simply applies the bicubic sampling in decomposition and Versatile
Video Coding (VVC) compliant codec in compression, and puts the focus on the
synthesis part. Such cross-resolution synthesis can be facilitated by
Reference-based Super-Resolution (RefSR). Specifically, a motion compensation
network (MCN) is devised on TMFs to efficiently align and aggregate temporal
motion features that will be jointly processed with corresponding STFs using a
texture transfer network (TTN) to better augment spatial details, by which the
compression and resolution re-sampling noises can be effectively alleviated
with better rate-distortion (R-D) efficiency, etc.
- Abstract(参考訳): 高い圧縮効率を求めるため、潜在的な解決策はダウンサンプリングベースのビデオ符号化(DSVC)であり、入力ビデオは比較的低い解像度で符号化するためにまずダウンスケールされ、デコードされたフレームはディープニューラルネットワーク(DNN)を介して超解かれる。
しかし、一様分解能サンプリングが高周波成分の深刻な損失を招いたか、既存のdsvc法で不均一にサンプリングされたフレームにまたがる情報集約が不十分であったため、符号化ゲインはしばしば境界づけされる。
そこで本研究では,まず,各空間テクスチャフレーム (STF) に入力映像を分解し,その空間的細部を保存し,他の時間的動きフレーム (TMF) を低空間解像度に分解し,動きの滑らかさを保ちながら圧縮し,次に,一般的なビデオコーダを用いて圧縮し,最終的に高精細度ビデオ再構成のための復号STFとTMFを,そのネイティブな入力と同じ解像度で合成する。
この研究は、分解におけるバイコビックサンプリングと圧縮におけるヴァーサタイルビデオ符号化(VVC)準拠コーデックを単純に適用し、合成部に焦点をあてる。
このようなクロスレゾリューション合成はRefSR(Reference-based Super-Resolution)によって容易にできる。
具体的には、TMF上に動き補償ネットワーク(MCN)を考案し、テクスチャ転送ネットワーク(TTN)を用いて対応するSTFと協調して処理される時間的動き特徴を効率よく整合・集約し、空間的詳細を向上し、圧縮及び分解再サンプリングノイズをより高率歪み(R−D)効率で効果的に緩和することができる。
関連論文リスト
- CANeRV: Content Adaptive Neural Representation for Video Compression [89.35616046528624]
映像圧縮のためのコンテンツ適応型ニューラル表現法(CANeRV)を提案する。
CANeRVは革新的なINRベースのビデオ圧縮ネットワークであり、各ビデオシーケンスの特定の内容に基づいて、構造最適化を適応的に行う。
CNeRVはH.266/VVCと最先端のINRベースの動画圧縮技術の両方を多種多様なビデオデータセットで上回り得ることを示す。
論文 参考訳(メタデータ) (2025-02-10T06:21:16Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution [151.1255837803585]
ビデオ超解像のための空間適応と時間コヒーレンス(SATeCo)を追求する新しい手法を提案する。
SATeCoは低解像度ビデオから時空間ガイダンスを学習し、潜時空間高解像度ビデオデノイングとピクセル空間ビデオ再構成の両方を校正する。
REDS4データセットとVid4データセットを用いて行った実験は、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-25T17:59:26Z) - IBVC: Interpolation-driven B-frame Video Compression [68.18440522300536]
Bフレームビデオ圧縮は、双方向動作推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。
従来の学習アプローチでは、しばしば双方向の光フロー推定に依存するニューラルネットワークのPフレームコーデックをBフレームに直接拡張する。
これらの問題に対処するために,IBVC (Interpolation-B-frame Video Compression) という単純な構造を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:45:51Z) - Differentiable Resolution Compression and Alignment for Efficient Video
Classification and Retrieval [16.497758750494537]
本稿では,高解像度圧縮・アライメント機構を備えた効率的な映像表現ネットワークを提案する。
我々は、相性および非相性フレーム特徴を符号化するために、微分可能なコンテキスト対応圧縮モジュールを利用する。
我々は,異なる解像度のフレーム特徴間のグローバル時間相関を捉えるために,新しい解像度変換器層を導入する。
論文 参考訳(メタデータ) (2023-09-15T05:31:53Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - Generalized Octave Convolutions for Learned Multi-Frequency Image
Compression [20.504561050200365]
本稿では,初めて学習されたマルチ周波数画像圧縮とエントロピー符号化手法を提案する。
これは最近開発されたオクターブの畳み込みに基づいて、潜水剤を高周波(高分解能)成分に分解する。
提案した一般化オクターブ畳み込みは、他のオートエンコーダベースのコンピュータビジョンタスクの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-24T01:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。