論文の概要: Low Bandwidth Video-Chat Compression using Deep Generative Models
- arxiv url: http://arxiv.org/abs/2012.00328v1
- Date: Tue, 1 Dec 2020 08:17:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 04:16:11.451947
- Title: Low Bandwidth Video-Chat Compression using Deep Generative Models
- Title(参考訳): 深部生成モデルを用いた低帯域ビデオチャット圧縮
- Authors: Maxime Oquab, Pierre Stock, Oran Gafni, Daniel Haziza, Tao Xu, Peizhao
Zhang, Onur Celebi, Yana Hasson, Patrick Labatut, Bobo Bose-Kolanu, Thibault
Peyronel, Camille Couprie
- Abstract要約: 本稿では,送信者の側から抽出した顔のランドマークを用いて,受信者の端末上での顔の音響的再構成を提案する。
このアプローチでは、数kbit/秒でビデオ通話が可能で、現在利用可能な代替手段よりも桁違いに低い。
- 参考スコア(独自算出の注目度): 19.462262379655307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To unlock video chat for hundreds of millions of people hindered by poor
connectivity or unaffordable data costs, we propose to authentically
reconstruct faces on the receiver's device using facial landmarks extracted at
the sender's side and transmitted over the network. In this context, we discuss
and evaluate the benefits and disadvantages of several deep adversarial
approaches. In particular, we explore quality and bandwidth trade-offs for
approaches based on static landmarks, dynamic landmarks or segmentation maps.
We design a mobile-compatible architecture based on the first order animation
model of Siarohin et al. In addition, we leverage SPADE blocks to refine
results in important areas such as the eyes and lips. We compress the networks
down to about 3MB, allowing models to run in real time on iPhone 8 (CPU). This
approach enables video calling at a few kbits per second, an order of magnitude
lower than currently available alternatives.
- Abstract(参考訳): 接続性や不便なデータコストに悩まされる数億の人々のビデオチャットをアンロックするために,送信側で抽出された顔のランドマークを用いて受信者の端末の顔の聴覚的に再構成し,ネットワークを介して送信することを提案する。
この文脈では、いくつかの深い敵対的アプローチの利点とデメリットを議論し、評価する。
特に,静的ランドマークや動的ランドマーク,セグメンテーションマップに基づくアプローチの品質と帯域幅のトレードオフについて検討する。
我々はSiarohinらの一階アニメーションモデルに基づくモバイル互換アーキテクチャを設計する。
また,SPADEブロックを利用して目や唇などの重要な領域で結果を洗練する。
ネットワークを約3MBまで圧縮し、iPhone 8(CPU)上でモデルをリアルタイムで実行できるようにします。
このアプローチでは、数kbit/秒でビデオ通話が可能で、現在利用可能な代替手段よりも桁違いに低い。
関連論文リスト
- SqueezerFaceNet: Reducing a Small Face Recognition CNN Even More Via
Filter Pruning [55.84746218227712]
我々は,100万パラメータ未満の軽量顔認識ネットワークであるSqueezerFaceNetを開発した。
性能を損なうことなく、さらに(最大40%)削減できることを示す。
論文 参考訳(メタデータ) (2023-07-20T08:38:50Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Gemino: Practical and Robust Neural Compression for Video Conferencing [19.137804113000474]
Geminoは、新しい高周波超解像パイプラインに基づくビデオ会議のための新しいニューラル圧縮システムである。
我々は,GeminoがTitan X GPU上でリアルタイムに動画を処理し,従来のビデオコーデックよりも2.2~5倍低画質で知覚品質を実現していることを示す。
論文 参考訳(メタデータ) (2022-09-21T17:10:46Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。
提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2022-06-27T06:48:15Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - An End-to-End Integrated Computation and Communication Architecture for
Goal-oriented Networking: A Perspective on Live Surveillance Video [0.0]
本研究では,ライブフィードから重要なイベントをリアルタイムに識別するための状況認識ストリーミングを提案する。
提案手法は,2160p (UHD)ビデオに対して,送信機に必要な電力消費量を38.5%削減できることを示す。
論文 参考訳(メタデータ) (2022-04-05T04:59:54Z) - Efficient conditioned face animation using frontally-viewed embedding [16.946671480018388]
プロファイルビューのレンダリングを改善するために、Frontalizerと呼ばれるマルチフレームの埋め込みを導入します。
さらに,顔の表情をよりよく伝達するためのランドマークとともに,世代別コード条件の学習についても検討する。
われわれのモデルは、これまでの最先端技術(知覚品質を16%以上改善し、2つのデータセットでランドマークエラーを47%以上削減する)を上回り、帯域幅の要求が極めて少ないiPhone 8でリアルタイムに実行しています。
論文 参考訳(メタデータ) (2022-03-16T17:24:11Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Multi-modality Deep Restoration of Extremely Compressed Face Videos [36.83490465562509]
我々は,積極的に圧縮された顔映像を復元するための多モードディープ畳み込みニューラルネットワーク手法を開発した。
主な革新は、複数のモダリティの既知の事前を組み込んだ新しいDCNNアーキテクチャである。
フェースビデオ上でのDCNN手法の優れた性能を実証するために, 実験的な証拠を多数提示した。
論文 参考訳(メタデータ) (2021-07-05T16:29:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。