論文の概要: Multi-modality Deep Restoration of Extremely Compressed Face Videos
- arxiv url: http://arxiv.org/abs/2107.05548v1
- Date: Mon, 5 Jul 2021 16:29:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-18 12:26:57.538178
- Title: Multi-modality Deep Restoration of Extremely Compressed Face Videos
- Title(参考訳): 超圧縮顔ビデオのマルチモダリティ深部復元
- Authors: Xi Zhang and Xiaolin Wu
- Abstract要約: 我々は,積極的に圧縮された顔映像を復元するための多モードディープ畳み込みニューラルネットワーク手法を開発した。
主な革新は、複数のモダリティの既知の事前を組み込んだ新しいDCNNアーキテクチャである。
フェースビデオ上でのDCNN手法の優れた性能を実証するために, 実験的な証拠を多数提示した。
- 参考スコア(独自算出の注目度): 36.83490465562509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Arguably the most common and salient object in daily video communications is
the talking head, as encountered in social media, virtual classrooms,
teleconferences, news broadcasting, talk shows, etc. When communication
bandwidth is limited by network congestions or cost effectiveness, compression
artifacts in talking head videos are inevitable. The resulting video quality
degradation is highly visible and objectionable due to high acuity of human
visual system to faces. To solve this problem, we develop a multi-modality deep
convolutional neural network method for restoring face videos that are
aggressively compressed. The main innovation is a new DCNN architecture that
incorporates known priors of multiple modalities: the video-synchronized speech
signal and semantic elements of the compression code stream, including motion
vectors, code partition map and quantization parameters. These priors strongly
correlate with the latent video and hence they are able to enhance the
capability of deep learning to remove compression artifacts. Ample empirical
evidences are presented to validate the superior performance of the proposed
DCNN method on face videos over the existing state-of-the-art methods.
- Abstract(参考訳): おそらく、ソーシャルメディア、仮想教室、テレカンファレンス、ニュース放送、トーク番組などで見られるような、日常的なビデオコミュニケーションにおいて最も一般的で健全な対象はトーキングヘッドである。
通信帯域幅がネットワークの混雑やコスト効果によって制限される場合、音声ヘッドビデオの圧縮アーティファクトは避けられない。
結果として生じる画質劣化は、顔に対する人間の視覚システムの高い明度のため、非常に可視であり、不快である。
この問題を解決するために,積極的に圧縮された顔映像を復元する多モードディープ畳み込みニューラルネットワーク手法を開発した。
ビデオ同期音声信号と圧縮符号ストリームの意味要素(動きベクトル、符号分割マップ、量子化パラメータなど)が組み込まれている。
これらの先行は遅延ビデオと強く相関しているため、圧縮アーティファクトを除去する深層学習の能力を高めることができる。
提案手法が既存の最先端手法よりも優れた性能を示すために,数多くの実証的エビデンスが提示されている。
関連論文リスト
- Efficient Video Face Enhancement with Enhanced Spatial-Temporal Consistency [36.939731355462264]
本研究では,新規で効率的なブラインド・ビデオ・フェース・エンハンスメント法を提案する。
圧縮された低品質バージョンから、効率的なデフリック機構で高品質の動画を復元する。
VFHQ-Testデータセットで行った実験は、我々の手法が現在の最先端のブラインド・フェイス・ビデオの復元と、効率と有効性の両面での解フリック法を超越していることを示している。
論文 参考訳(メタデータ) (2024-11-25T15:14:36Z) - Perceptual Quality Improvement in Videoconferencing using
Keyframes-based GAN [28.773037051085318]
本稿では,ビデオ会議における圧縮アーティファクト削減のための新しいGAN手法を提案する。
まず,圧縮および参照フレームからマルチスケールの特徴を抽出する。
そして、私たちのアーキテクチャは、顔のランドマークに従って、これらの特徴を段階的に組み合わせます。
論文 参考訳(メタデータ) (2023-11-07T16:38:23Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Perceptual Quality Assessment of Face Video Compression: A Benchmark and
An Effective Method [69.868145936998]
生成的符号化アプローチは、合理的な速度歪曲トレードオフを持つ有望な代替手段として認識されている。
従来のハイブリッドコーディングフレームワークから生成モデルまで、空間的・時間的領域における歪みの多様さは、圧縮顔画像品質評価(VQA)における大きな課題を提示する。
大規模圧縮顔画像品質評価(CFVQA)データベースを導入し,顔ビデオの知覚的品質と多角化圧縮歪みを体系的に理解するための最初の試みである。
論文 参考訳(メタデータ) (2023-04-14T11:26:09Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed
Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。
これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。
我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文 参考訳(メタデータ) (2022-01-31T18:56:04Z) - Stitch it in Time: GAN-Based Facial Editing of Real Videos [38.81306268180105]
本稿では,映像中の顔のセマンティックな編集を行うフレームワークを提案する。
提案手法は,有意義な顔操作を行い,高い時間的一貫性を維持し,難易度,高品質な音声ヘッドビデオに適用することができる。
論文 参考訳(メタデータ) (2022-01-20T18:48:20Z) - Deep Multi-modality Soft-decoding of Very Low Bit-rate Face Videos [23.83907055654182]
本稿では,音声頭部の低ビットレート映像を復元するディープマルチモーダリティニューラルネットワークを提案する。
提案手法は, 話者の3つのモード, ビデオ, 音声, 感情状態の相関を利用して, 映像圧縮アーティファクトを除去する。
論文 参考訳(メタデータ) (2020-08-02T04:38:59Z) - Neural Human Video Rendering by Learning Dynamic Textures and
Rendering-to-Video Translation [99.64565200170897]
本研究では,2次元スクリーン空間に人体を埋め込むことで,時間的コヒーレントな微細な細部を学習することで,人間の映像合成手法を提案する。
我々は,人間の再現やモノクロ映像からの新たなビュー合成などのアプローチの適用例を示し,質的にも定量的にも,芸術の状態を著しく改善した。
論文 参考訳(メタデータ) (2020-01-14T18:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。