論文の概要: Gemino: Practical and Robust Neural Compression for Video Conferencing
- arxiv url: http://arxiv.org/abs/2209.10507v1
- Date: Wed, 21 Sep 2022 17:10:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 17:11:17.629284
- Title: Gemino: Practical and Robust Neural Compression for Video Conferencing
- Title(参考訳): Gemino:ビデオ会議のための実用的でロバストなニューラル圧縮
- Authors: Vibhaalakshmi Sivaraman, Pantea Karimi, Vedantha Venkatapathy, Mehrdad
Khani, Sadjad Fouladi, Mohammad Alizadeh, Fr\'edo Durand, Vivienne Sze
- Abstract要約: Geminoは、新しい高周波超解像パイプラインに基づくビデオ会議のための新しいニューラル圧縮システムである。
GeminoはA100 GPU上で1024×1024の動画をリアルタイムに処理し、従来のビデオコーデックよりも2.9倍低画質で知覚品質を実現している。
- 参考スコア(独自算出の注目度): 15.94782626657704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video conferencing systems suffer from poor user experience when network
conditions deteriorate because current video codecs simply cannot operate at
extremely low bitrates. Recently, several neural alternatives have been
proposed that reconstruct talking head videos at very low bitrates using sparse
representations of each frame such as facial landmark information. However,
these approaches produce poor reconstructions in scenarios with major movement
or occlusions over the course of a call, and do not scale to higher
resolutions. We design Gemino, a new neural compression system for video
conferencing based on a novel high-frequency-conditional super-resolution
pipeline. Gemino upsamples a very low-resolution version of each target frame
while enhancing high-frequency details (e.g., skin texture, hair, etc.) based
on information extracted from a single high-resolution reference image. We use
a multi-scale architecture that runs different components of the model at
different resolutions, allowing it to scale to resolutions comparable to 720p,
and we personalize the model to learn specific details of each person,
achieving much better fidelity at low bitrates. We implement Gemino atop
aiortc, an open-source Python implementation of WebRTC, and show that it
operates on 1024x1024 videos in real-time on a A100 GPU, and achieves 2.9x
lower bitrate than traditional video codecs for the same perceptual quality.
- Abstract(参考訳): ビデオ会議システムは、現在のビデオコーデックが極端に低ビットレートで動作できないため、ネットワーク状態が悪化するとユーザエクスペリエンスが低下する。
近年,顔のランドマーク情報などの各フレームのスパース表現を用いて,非常に低ビットレートでの音声ヘッドビデオの再構成が提案されている。
しかし、これらの手法は、呼び出しの途中で大きな動きや閉塞を伴うシナリオにおいて貧弱な再構成をもたらし、より高い解像度にスケールしない。
我々は,新しい高周波数条件超解像パイプラインに基づくビデオ会議用ニューラル圧縮システムgeminoを設計した。
Geminoは、単一の高解像度参照画像から抽出された情報に基づいて、高周波の詳細(皮膚のテクスチャ、毛髪など)を高めながら、ターゲットフレームの非常に低解像度バージョンをアップサンプリングする。
私たちは、異なる解像度でモデルの異なるコンポーネントを実行し、720pに匹敵する解像度にスケールできるマルチスケールアーキテクチャを使用し、モデルをパーソナライズして各人の特定の詳細を学習し、低ビットレートでより優れた忠実度を実現します。
我々は,webrtc のオープンソース python 実装である aiortc 上で gemino を実装し,a100 gpu 上で 1024x1024 の動画をリアルタイムに動作させ,従来のビデオコーデックの2.9倍の低ビットレートを実現している。
関連論文リスト
- High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Resolution-Agnostic Neural Compression for High-Fidelity Portrait Video
Conferencing via Implicit Radiance Fields [42.926554334378984]
高忠実度と低帯域幅はビデオ会議アプリケーションにおけるビデオ圧縮の2つの主要な目的である。
本稿では,高忠実度映像会議のための新しい低帯域幅ニューラル圧縮手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T14:29:13Z) - Video Compression with Arbitrary Rescaling Network [8.489428003916622]
符号化前のビデオリサイズのためのレート誘導任意再スケーリングネットワーク(RARN)を提案する。
軽量RARN構造は、FHD(1080p)コンテンツをリアルタイム(91 FPS)で処理し、かなりのレート低下を得ることができる。
論文 参考訳(メタデータ) (2023-06-07T07:15:18Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - VideoINR: Learning Video Implicit Neural Representation for Continuous
Space-Time Super-Resolution [75.79379734567604]
ビデオインプリシットニューラル表現(Video Implicit Neural Representation, VideoINR)は任意の空間解像度とフレームレートの映像にデコード可能であることを示す。
本稿では,最新のSTVSR手法を用いて,一般的なアップサンプリングスケールにおいて,ビデオINRが競合性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-06-09T17:45:49Z) - Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed
Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。
これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。
我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文 参考訳(メタデータ) (2022-01-31T18:56:04Z) - COMISR: Compression-Informed Video Super-Resolution [76.94152284740858]
ウェブやモバイルデバイスのほとんどのビデオは圧縮され、帯域幅が制限されると圧縮は厳しい。
圧縮によるアーティファクトを導入せずに高解像度コンテンツを復元する圧縮インフォームドビデオ超解像モデルを提案する。
論文 参考訳(メタデータ) (2021-05-04T01:24:44Z) - Efficient Video Compression via Content-Adaptive Super-Resolution [11.6624528293976]
ビデオ圧縮はインターネットビデオ配信の重要なコンポーネントである。
近年の研究では、ディープラーニング技術が人間のアルゴリズムに匹敵する、あるいは優れていることが示されている。
本稿では,最近の深層学習に基づくビデオ圧縮方式を補強する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-04-06T07:01:06Z) - Ultra-low bitrate video conferencing using deep image animation [7.263312285502382]
ビデオ会議のための超低速ビデオ圧縮のための新しい深層学習手法を提案する。
我々はディープニューラルネットワークを用いて、動き情報をキーポイント変位として符号化し、デコーダ側で映像信号を再構成する。
論文 参考訳(メタデータ) (2020-12-01T09:06:34Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。