論文の概要: Learned Video Codec with Enriched Reconstruction for CLIC P-frame Coding
- arxiv url: http://arxiv.org/abs/2012.07462v1
- Date: Mon, 14 Dec 2020 12:32:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:30:51.841896
- Title: Learned Video Codec with Enriched Reconstruction for CLIC P-frame Coding
- Title(参考訳): CLIC Pフレーム符号化のための強化再構成による学習ビデオコーデック
- Authors: David Alexandre and Hsueh-Ming Hang
- Abstract要約: 本稿では,学習画像圧縮(clic, cvprworkshop)2020 p-frame符号化のための学習ベースのビデオを提案する。
より具体的には、残差符号信号と運動ベクトルのためのRefine-Netを用いた圧縮機ネットワークを設計した。
ビデオでは,CLIC P-frame Challengeで指定されたデコーダ側の完全参照フレームを用いて,その性能を示す。
- 参考スコア(独自算出の注目度): 11.000499414131324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a learning-based video codec, specifically used for
Challenge on Learned Image Compression (CLIC, CVPRWorkshop) 2020 P-frame
coding. More specifically, we designed a compressor network with Refine-Net for
coding residual signals and motion vectors. Also, for motion estimation, we
introduced a hierarchical, attention-based ME-Net. To verify our design, we
conducted an extensive ablation study on our modules and different input
formats. Our video codec demonstrates its performance by using the perfect
reference frame at the decoder side specified by the CLIC P-frame Challenge.
The experimental result shows that our proposed codec is very competitive with
the Challenge top performers in terms of quality metrics.
- Abstract(参考訳): 本稿では,学習画像圧縮(clic, cvprworkshop)2020 p-frame符号化のための学習ベースのビデオコーデックを提案する。
具体的には、残差信号と運動ベクトルを符号化するためのRefine-Netを用いた圧縮機ネットワークを設計した。
また,動き推定のための階層型注意型me-netも導入した。
設計を検証するため,モジュールと異なる入力形式について広範なアブレーション研究を行った。
ビデオコーデックでは,CLIC P-frame Challengeで規定されたデコーダ側の完全参照フレームを用いて,その性能を示す。
実験結果から,提案するコーデックは,品質指標の面では,トップパフォーマとの競争力が高いことがわかった。
関連論文リスト
- Conditional Neural Video Coding with Spatial-Temporal Super-Resolution [18.708228331281536]
この文書は、元々2024 Data Compression Conferenceで発表された1ページの要約の拡張版である。
本稿では,2024年の学習画像圧縮(CLIC)における課題のビデオトラックについて述べる。
論文 参考訳(メタデータ) (2024-01-25T05:36:48Z) - CANF-VC: Conditional Augmented Normalizing Flows for Video Compression [81.41594331948843]
CANF-VCは、エンドツーエンドの学習ベースのビデオ圧縮システムである。
条件付き拡張正規化フロー(ANF)に基づく。
論文 参考訳(メタデータ) (2022-07-12T04:53:24Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - Saliency-Driven Versatile Video Coding for Neural Object Detection [7.367608892486084]
本稿では,最新のビデオ符号化標準であるVersatile Video Coding (VVC) を用いた,機械作業用ビデオ符号化のためのサリエンシ駆動コーディングフレームワークを提案する。
符号化に先立って有能な領域を決定するために, リアルタイムのオブジェクト検出ネットワークであるYou Only Look Once(YOLO)と, 新たな判定基準を併用した。
基準VVCを一定の品質で比較すると,提案手法を適用することで,デコーダ側と同じ検出で最大29%の精度を節約できることがわかった。
論文 参考訳(メタデータ) (2022-03-11T14:27:43Z) - Adaptation and Attention for Neural Video Coding [23.116987835862314]
本稿では,いくつかの建築ノベルティとトレーニングノベルティを紹介するエンド・ツー・エンドの学習ビデオを提案する。
1つのアーキテクチャ上の特徴として,入力ビデオの解像度に基づいて動き推定プロセスを適用するために,フレーム間モデルをトレーニングすることを提案する。
第2のアーキテクチャノベルティは、分割アテンションベースのニューラルネットワークとDenseNetsの概念を組み合わせた、新しいニューラルブロックである。
論文 参考訳(メタデータ) (2021-12-16T10:25:49Z) - Perceptual Learned Video Compression with Recurrent Conditional GAN [158.0726042755]
本稿では, PVC (Perceptual Learned Video Compression) アプローチを提案する。
PLVCは低ビットレートで映像を知覚品質に圧縮することを学ぶ。
ユーザスタディでは、最新の学習ビデオ圧縮手法と比較して、PLVCの優れた知覚性能をさらに検証している。
論文 参考訳(メタデータ) (2021-09-07T13:36:57Z) - Conditional Coding and Variable Bitrate for Practical Learned Video
Coding [1.6619384554007748]
条件符号化と量子化ゲインベクトルは、単一のエンコーダ/デコーダペアに柔軟性を提供するために使用される。
提案手法はHEVCと同等の性能を示す。
論文 参考訳(メタデータ) (2021-04-19T07:48:55Z) - Learning to Compress Videos without Computing Motion [39.46212197928986]
動き推定を必要としない新しいディープラーニングビデオ圧縮アーキテクチャを提案する。
本フレームワークでは,映像のフレーム差分を映像表現として利用することにより,映像の動きに固有の規則性を利用する。
実験の結果,Motionless VIdeo Codec (MOVI-Codec) と呼ばれる圧縮モデルは,動きを計算せずに効率的に動画を圧縮する方法を学習することがわかった。
論文 参考訳(メタデータ) (2020-09-29T15:49:25Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z) - Video Coding for Machines: A Paradigm of Collaborative Compression and
Intelligent Analytics [127.65410486227007]
フレーム全体を圧縮、再構成することを目的としたビデオ符号化と、最も重要な情報のみを保存し、送信する特徴圧縮は、スケールの2つの端に立つ。
最近のビデオ圧縮の急激なトレンド、例えばディープラーニングベースのコーディングツールやエンドツーエンドの画像/ビデオコーディング、MPEG-7のコンパクトな特徴記述子標準などの取り組みは、持続的かつ迅速な開発を促進する。
本稿では,新たな領域であるVCM(Video Coding for Machines)の探索を行う。
論文 参考訳(メタデータ) (2020-01-10T17:24:13Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。