論文の概要: Dilated convolutional neural network-based deep reference picture
generation for video compression
- arxiv url: http://arxiv.org/abs/2202.05514v1
- Date: Fri, 11 Feb 2022 09:06:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-14 16:37:06.028191
- Title: Dilated convolutional neural network-based deep reference picture
generation for video compression
- Title(参考訳): 拡張畳み込みニューラルネットワークによる映像圧縮のための深部参照画像生成
- Authors: Haoyue Tian, Pan Gao, Ran Wei, Manoranjan Paul
- Abstract要約: 本稿では,現在の符号化フレームとより関連性の高い画像を生成するディープリファレンス画像生成器を提案する。
本稿では,近年の畳み込みニューラルネットワーク(CNN)の進歩に触発されて,拡張CNNを用いてジェネレータを構築することを提案する。
- 参考スコア(独自算出の注目度): 16.42377608366894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion estimation and motion compensation are indispensable parts of inter
prediction in video coding. Since the motion vector of objects is mostly in
fractional pixel units, original reference pictures may not accurately provide
a suitable reference for motion compensation. In this paper, we propose a deep
reference picture generator which can create a picture that is more relevant to
the current encoding frame, thereby further reducing temporal redundancy and
improving video compression efficiency. Inspired by the recent progress of
Convolutional Neural Network(CNN), this paper proposes to use a dilated CNN to
build the generator. Moreover, we insert the generated deep picture into
Versatile Video Coding(VVC) as a reference picture and perform a comprehensive
set of experiments to evaluate the effectiveness of our network on the latest
VVC Test Model VTM. The experimental results demonstrate that our proposed
method achieves on average 9.7% bit saving compared with VVC under low-delay P
configuration.
- Abstract(参考訳): 動画符号化において、動き推定と動き補償は相互予測に不可欠である。
物体の運動ベクトルは大部分が分数ピクセル単位であるため、元の参照画像は動き補償に適切な基準を提供しない可能性がある。
本稿では、現在の符号化フレームとより関連性の高い画像を生成することができるディープリファレンス画像生成装置を提案し、これにより、時間的冗長性をさらに低減し、ビデオ圧縮効率を向上させる。
本稿では,近年の畳み込みニューラルネットワーク(CNN)の進歩に触発されて,拡張CNNを用いてジェネレータを構築することを提案する。
さらに、生成した深部画像を基準画像としてVersatile Video Coding(VVC)に挿入し、最新のVVCテストモデルVTMにおけるネットワークの有効性を評価するための総合的な実験を行う。
実験の結果,提案手法は低遅延p構成のvvcと比較して平均9.7%の節約を実現することがわかった。
関連論文リスト
- VQ-NeRV: A Vector Quantized Neural Representation for Videos [3.6662666629446043]
Inlicit Neural representations (INR)は、ニューラルネットワーク内のビデオのエンコーディングに優れ、ビデオ圧縮やデノイングといったコンピュータビジョンタスクにおける約束を示す。
本稿では,新しいコンポーネントであるVQ-NeRVブロックを統合した,高度なU字型アーキテクチャであるVector Quantized-NeRV(VQ-NeRV)を紹介する。
このブロックには、ネットワークの浅い残差特徴とフレーム間の残差情報を効果的に識別するコードブック機構が組み込まれている。
論文 参考訳(メタデータ) (2024-03-19T03:19:07Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - FVC: A New Framework towards Deep Video Compression in Feature Space [21.410266039564803]
特徴空間におけるすべての主要な操作(動き推定、動き圧縮、動き補償、残差圧縮)を実行することで特徴空間ビデオ符号化ネットワーク(FVC)を提案する。
提案フレームワークは,HEVC,UVG,VTL,MCL-JCVを含む4つのベンチマークデータセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-05-20T08:55:32Z) - Neural Video Coding using Multiscale Motion Compensation and
Spatiotemporal Context Model [45.46660511313426]
エンド・ツー・エンドのディープ・ニューラル・ビデオ・コーディング・フレームワーク(NVC)を提案する。
フレーム内画素、フレーム間運動、フレーム間補償残差の相関を利用するために、共同空間および時間的事前集約(PA)を備えた可変オートエンコーダ(VAE)を使用する。
NVCは低遅延因果条件で評価され、H.265/HEVC、H.264/AVC、その他の学習ビデオ圧縮法と比較される。
論文 参考訳(メタデータ) (2020-07-09T06:15:17Z) - Cascaded Deep Video Deblurring Using Temporal Sharpness Prior [88.98348546566675]
提案アルゴリズムは主に,中間潜水フレームと潜水フレームの復元ステップから光フローを推定する。
まず、中間潜伏フレームから光フローを推定し、推定した光フローに基づいて潜伏フレームを復元する深部CNNモデルを開発する。
ビデオデブロアリングのドメイン知識を探索することで、深層CNNモデルをよりコンパクトで効率的なものにすることができることを示す。
論文 参考訳(メタデータ) (2020-04-06T09:13:49Z) - Deep Blind Video Super-resolution [85.79696784460887]
本稿では,ビデオSRを曖昧なカーネルモデリング手法により解くために,深層畳み込みニューラルネットワーク(CNN)モデルを提案する。
提案したCNNモデルは、動きのぼかし推定、動きの推定、遅延画像復元モジュールからなる。
提案アルゴリズムは, より微細な構造情報を用いて, より鮮明な画像を生成することができることを示す。
論文 参考訳(メタデータ) (2020-03-10T13:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。