論文の概要: Decomposition, Compression, and Synthesis Based Video Coding: A Neural
Approach Through Reference-Based Super Resolution
- arxiv url: http://arxiv.org/abs/2012.00650v2
- Date: Sun, 25 Apr 2021 06:16:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-05-30 19:35:22.100409
- Title: Decomposition, Compression, and Synthesis Based Video Coding: A Neural
Approach Through Reference-Based Super Resolution
- Title(参考訳): 分解、圧縮、合成に基づくビデオ符号化:参照に基づく超解像によるニューラルアプローチ
- Authors: Ming Lu, Tong Chen, zhenyu Dai, Dong Wang, Dandan Ding, and Zhan Ma
- Abstract要約: 圧縮効率の向上を追求するためには、Down-Sampling based Video Coding (DSVC) が考えられる。
本研究は,分解におけるバイコビックサンプリングと圧縮に適合するVersatile Video Coding (VVC)を単純に適用する。
具体的には、運動補償ネットワーク(MCN)をTMF上に考案し、時間的運動特徴を効率よく調整し集約する。
- 参考スコア(独自算出の注目度): 23.89764282913584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In pursuit of higher compression efficiency, a potential solution is the
Down-Sampling based Video Coding (DSVC) where a input video is first downscaled
for encoding at a relatively lower resolution, and then decoded frames are
super-resolved through deep neural networks (DNNs). However, the coding gains
are often bounded due to either uniform resolution sampling induced severe loss
of high-frequency component, or insufficient information aggregation across
non-uniformly sampled frames in existing DSVC methods. To address this, we
propose to first decompose the input video into respective spatial texture
frames (STFs) at its native spatial resolution that preserve the rich spatial
details, and the other temporal motion frames (TMFs) at a lower spatial
resolution that retain the motion smoothness; then compress them together using
any popular video coder; and finally synthesize decoded STFs and TMFs for
high-fidelity video reconstruction at the same resolution as its native input.
This work simply applies the bicubic sampling in decomposition and Versatile
Video Coding (VVC) compliant codec in compression, and puts the focus on the
synthesis part. Such cross-resolution synthesis can be facilitated by
Reference-based Super-Resolution (RefSR). Specifically, a motion compensation
network (MCN) is devised on TMFs to efficiently align and aggregate temporal
motion features that will be jointly processed with corresponding STFs using a
texture transfer network (TTN) to better augment spatial details, by which the
compression and resolution re-sampling noises can be effectively alleviated
with better rate-distortion (R-D) efficiency, etc.
- Abstract(参考訳): 高い圧縮効率を求めるため、潜在的な解決策はダウンサンプリングベースのビデオ符号化(DSVC)であり、入力ビデオは比較的低い解像度で符号化するためにまずダウンスケールされ、デコードされたフレームはディープニューラルネットワーク(DNN)を介して超解かれる。
しかし、一様分解能サンプリングが高周波成分の深刻な損失を招いたか、既存のdsvc法で不均一にサンプリングされたフレームにまたがる情報集約が不十分であったため、符号化ゲインはしばしば境界づけされる。
そこで本研究では,まず,各空間テクスチャフレーム (STF) に入力映像を分解し,その空間的細部を保存し,他の時間的動きフレーム (TMF) を低空間解像度に分解し,動きの滑らかさを保ちながら圧縮し,次に,一般的なビデオコーダを用いて圧縮し,最終的に高精細度ビデオ再構成のための復号STFとTMFを,そのネイティブな入力と同じ解像度で合成する。
この研究は、分解におけるバイコビックサンプリングと圧縮におけるヴァーサタイルビデオ符号化(VVC)準拠コーデックを単純に適用し、合成部に焦点をあてる。
このようなクロスレゾリューション合成はRefSR(Reference-based Super-Resolution)によって容易にできる。
具体的には、TMF上に動き補償ネットワーク(MCN)を考案し、テクスチャ転送ネットワーク(TTN)を用いて対応するSTFと協調して処理される時間的動き特徴を効率よく整合・集約し、空間的詳細を向上し、圧縮及び分解再サンプリングノイズをより高率歪み(R−D)効率で効果的に緩和することができる。
関連論文リスト
- Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。
本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。
我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-03-27T13:01:53Z) - REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。
入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。
本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文 参考訳(メタデータ) (2025-03-11T17:51:07Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution [151.1255837803585]
ビデオ超解像のための空間適応と時間コヒーレンス(SATeCo)を追求する新しい手法を提案する。
SATeCoは低解像度ビデオから時空間ガイダンスを学習し、潜時空間高解像度ビデオデノイングとピクセル空間ビデオ再構成の両方を校正する。
REDS4データセットとVid4データセットを用いて行った実験は、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-25T17:59:26Z) - IBVC: Interpolation-driven B-frame Video Compression [68.18440522300536]
Bフレームビデオ圧縮は、双方向動作推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。
従来の学習アプローチでは、しばしば双方向の光フロー推定に依存するニューラルネットワークのPフレームコーデックをBフレームに直接拡張する。
これらの問題に対処するために,IBVC (Interpolation-B-frame Video Compression) という単純な構造を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:45:51Z) - Differentiable Resolution Compression and Alignment for Efficient Video
Classification and Retrieval [16.497758750494537]
本稿では,高解像度圧縮・アライメント機構を備えた効率的な映像表現ネットワークを提案する。
我々は、相性および非相性フレーム特徴を符号化するために、微分可能なコンテキスト対応圧縮モジュールを利用する。
我々は,異なる解像度のフレーム特徴間のグローバル時間相関を捉えるために,新しい解像度変換器層を導入する。
論文 参考訳(メタデータ) (2023-09-15T05:31:53Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - Generalized Octave Convolutions for Learned Multi-Frequency Image
Compression [20.504561050200365]
本稿では,初めて学習されたマルチ周波数画像圧縮とエントロピー符号化手法を提案する。
これは最近開発されたオクターブの畳み込みに基づいて、潜水剤を高周波(高分解能)成分に分解する。
提案した一般化オクターブ畳み込みは、他のオートエンコーダベースのコンピュータビジョンタスクの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-24T01:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。