論文の概要: Deep Multi-modality Soft-decoding of Very Low Bit-rate Face Videos
- arxiv url: http://arxiv.org/abs/2008.01652v1
- Date: Sun, 2 Aug 2020 04:38:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 20:02:20.806423
- Title: Deep Multi-modality Soft-decoding of Very Low Bit-rate Face Videos
- Title(参考訳): 極低ビットレート映像の多モードソフトデコーディング
- Authors: Yanhui Guo, Xi Zhang, Xiaolin Wu
- Abstract要約: 本稿では,音声頭部の低ビットレート映像を復元するディープマルチモーダリティニューラルネットワークを提案する。
提案手法は, 話者の3つのモード, ビデオ, 音声, 感情状態の相関を利用して, 映像圧縮アーティファクトを除去する。
- 参考スコア(独自算出の注目度): 23.83907055654182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel deep multi-modality neural network for restoring very low
bit rate videos of talking heads. Such video contents are very common in social
media, teleconferencing, distance education, tele-medicine, etc., and often
need to be transmitted with limited bandwidth. The proposed CNN method exploits
the correlations among three modalities, video, audio and emotion state of the
speaker, to remove the video compression artifacts caused by spatial down
sampling and quantization. The deep learning approach turns out to be ideally
suited for the video restoration task, as the complex non-linear cross-modality
correlations are very difficult to model analytically and explicitly. The new
method is a video post processor that can significantly boost the perceptual
quality of aggressively compressed talking head videos, while being fully
compatible with all existing video compression standards.
- Abstract(参考訳): 本稿では,音声頭部の低ビットレート映像を復元するディープ多モードニューラルネットワークを提案する。
このようなビデオコンテンツは、ソーシャルメディア、遠隔会議、遠隔教育、遠隔医療などで非常に一般的であり、帯域幅が限られている場合が多い。
提案手法は,話者の3つのモード,映像,音声,感情状態の相関を利用して,空間的なダウンサンプリングと量子化による映像圧縮アーチファクトを除去する。
複雑な非線形の相互モダリティ相関は解析的かつ明示的にモデル化することが非常に困難であるため、ディープラーニングアプローチはビデオ復元作業に最適であることが判明した。
この新しい方法はビデオポストプロセッサで、攻撃的に圧縮された音声ヘッドビデオの知覚的品質を大幅に向上させると同時に、既存のビデオ圧縮標準と完全に互換性がある。
関連論文リスト
- When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Resolution-Agnostic Neural Compression for High-Fidelity Portrait Video
Conferencing via Implicit Radiance Fields [42.926554334378984]
高忠実度と低帯域幅はビデオ会議アプリケーションにおけるビデオ圧縮の2つの主要な目的である。
本稿では,高忠実度映像会議のための新しい低帯域幅ニューラル圧縮手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T14:29:13Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Gemino: Practical and Robust Neural Compression for Video Conferencing [19.137804113000474]
Geminoは、新しい高周波超解像パイプラインに基づくビデオ会議のための新しいニューラル圧縮システムである。
我々は,GeminoがTitan X GPU上でリアルタイムに動画を処理し,従来のビデオコーデックよりも2.2~5倍低画質で知覚品質を実現していることを示す。
論文 参考訳(メタデータ) (2022-09-21T17:10:46Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed
Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。
これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。
我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文 参考訳(メタデータ) (2022-01-31T18:56:04Z) - Multi-modality Deep Restoration of Extremely Compressed Face Videos [36.83490465562509]
我々は,積極的に圧縮された顔映像を復元するための多モードディープ畳み込みニューラルネットワーク手法を開発した。
主な革新は、複数のモダリティの既知の事前を組み込んだ新しいDCNNアーキテクチャである。
フェースビデオ上でのDCNN手法の優れた性能を実証するために, 実験的な証拠を多数提示した。
論文 参考訳(メタデータ) (2021-07-05T16:29:02Z) - Ultra-low bitrate video conferencing using deep image animation [7.263312285502382]
ビデオ会議のための超低速ビデオ圧縮のための新しい深層学習手法を提案する。
我々はディープニューラルネットワークを用いて、動き情報をキーポイント変位として符号化し、デコーダ側で映像信号を再構成する。
論文 参考訳(メタデータ) (2020-12-01T09:06:34Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。