論文の概要: Perceptually-inspired super-resolution of compressed videos
- arxiv url: http://arxiv.org/abs/2106.08147v1
- Date: Tue, 15 Jun 2021 13:50:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 15:19:10.483844
- Title: Perceptually-inspired super-resolution of compressed videos
- Title(参考訳): 圧縮ビデオの知覚的インスパイアによる超解像
- Authors: Di Ma, Mariana Afonso, Fan Zhang and David R. Bull
- Abstract要約: 空間分解能適応は、符号化効率を高めるためにしばしばビデオ圧縮に使用される技法である。
近年の研究では、畳み込みニューラルネットワーク(CNN)に基づく高度な超解像法を用いて、再構築品質をさらに向上させている。
本稿では,CNNモデルを用いた圧縮映像の空間的アップサンプリングのために,知覚にインスパイアされた超解像法(M-SRGAN)を提案する。
- 参考スコア(独自算出の注目度): 18.72040343193715
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Spatial resolution adaptation is a technique which has often been employed in
video compression to enhance coding efficiency. This approach encodes a lower
resolution version of the input video and reconstructs the original resolution
during decoding. Instead of using conventional up-sampling filters, recent work
has employed advanced super-resolution methods based on convolutional neural
networks (CNNs) to further improve reconstruction quality. These approaches are
usually trained to minimise pixel-based losses such as Mean-Squared Error
(MSE), despite the fact that this type of loss metric does not correlate well
with subjective opinions. In this paper, a perceptually-inspired
super-resolution approach (M-SRGAN) is proposed for spatial up-sampling of
compressed video using a modified CNN model, which has been trained using a
generative adversarial network (GAN) on compressed content with perceptual loss
functions. The proposed method was integrated with HEVC HM 16.20, and has been
evaluated on the JVET Common Test Conditions (UHD test sequences) using the
Random Access configuration. The results show evident perceptual quality
improvement over the original HM 16.20, with an average bitrate saving of 35.6%
(Bj{\o}ntegaard Delta measurement) based on a perceptual quality metric, VMAF.
- Abstract(参考訳): 空間分解能適応は、符号化効率を高めるためにしばしばビデオ圧縮に用いられている技法である。
このアプローチは、入力ビデオの低解像度バージョンを符号化し、復号時に元の解像度を再構成する。
従来のアップサンプリングフィルタの代わりに、近年の研究では、畳み込みニューラルネットワーク(cnns)に基づく高度な超解像法を用いて、再構成品質をさらに向上している。
これらのアプローチは通常、このタイプの損失メトリックが主観的な意見とうまく相関しないにもかかわらず、平均二乗誤差(mse)のようなピクセルベースの損失を最小化するために訓練される。
本稿では, 知覚損失機能を有する圧縮コンテンツに対して, 生成的逆ネットワーク(gan)を用いて訓練された修正cnnモデルを用いて, 圧縮映像の空間的アップサンプリングを行うための知覚的にインスパイアされた超解像法(m-srgan)を提案する。
提案手法はHEVC HM 16.20と統合され,Random Access 構成を用いて JVET Common Test Conditions (UHD test sequences) で評価されている。
その結果,従来のHM 16.20よりも知覚品質が向上し,平均ビットレートは35.6%(Bj{\o}ntegaard Delta測定)であった。
関連論文リスト
- Prediction and Reference Quality Adaptation for Learned Video Compression [54.58691829087094]
本研究では,空間的およびチャネル的予測品質差の明確な識別を行うために,信頼度に基づく予測品質適応(PQA)モジュールを提案する。
また、参照品質適応(RQA)モジュールと関連する繰り返し学習戦略を提案し、様々な参照品質のための動的空間変化フィルタを提供する。
論文 参考訳(メタデータ) (2024-06-20T09:03:26Z) - Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression [58.618625678054826]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - VCISR: Blind Single Image Super-Resolution with Video Compression
Synthetic Data [18.877077302923713]
本稿では,映像圧縮に基づく劣化モデルを用いて,ブラインドSISRタスクにおける低解像度画像データを合成する。
提案手法は既存の画像データセットに適用可能である。
SISR分解モデルにビデオ符号化アーティファクトを導入することで、ニューラルネットワークは、ビデオ圧縮劣化を復元する機能を備えた、画像の超解凍を可能にする。
論文 参考訳(メタデータ) (2023-11-02T05:24:19Z) - Neighbourhood Representative Sampling for Efficient End-to-end Video
Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示す
そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。
フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-10-11T11:38:07Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - Video Coding for Machines with Feature-Based Rate-Distortion
Optimization [7.804710977378487]
ニューラルネットワークの安定した改善により、ますます多くのマルチメディアデータが人間によって観測されなくなる。
本稿では,コーディング性能の向上を目的とした標準準拠機能ベースのRDO(FRDO)を提案する。
提案したFRDOとHFRDOのハイブリッドバージョンを比較し,特徴空間の歪みを従来のRDOと比較した。
論文 参考訳(メタデータ) (2022-03-11T12:49:50Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Super-Resolving Compressed Video in Coding Chain [27.994055823226848]
レファレンスベースのDCNNと連携する混合解像度符号化フレームワークを提案する。
この新しい符号化チェーンにおいて、基準ベースDCNNは、低解像度(LR)圧縮ビデオからデコーダ側の高解像度(HR)クリーンバージョンへの直接マッピングを学習する。
論文 参考訳(メタデータ) (2021-03-26T03:39:54Z) - Video Quality Enhancement Using Deep Learning-Based Prediction Models
for Quantized DCT Coefficients in MPEG I-frames [0.0]
本稿では,周波数/周波数領域に基づくMPEGビデオデコーダを提案する。
低品質Iフレームから受信した量子化されたDCT係数を読み出し、深層学習モデルを用いて、欠落した係数を予測し、同じフレームを高画質で再構成する。
論文 参考訳(メタデータ) (2020-10-09T16:41:18Z) - Video compression with low complexity CNN-based spatial resolution
adaptation [15.431248645312309]
空間分解能適応は、全体的な符号化性能を改善するために、ビデオ圧縮に組み込むことができる。
エンコーダとデコーダ間の複雑性の柔軟な割り当てをサポートする新しいフレームワークが提案されている。
論文 参考訳(メタデータ) (2020-07-29T10:20:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。