論文の概要: FAIVConf: Face enhancement for AI-based Video Conference with Low
Bit-rate
- arxiv url: http://arxiv.org/abs/2207.04090v1
- Date: Fri, 8 Jul 2022 18:29:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 13:29:08.736585
- Title: FAIVConf: Face enhancement for AI-based Video Conference with Low
Bit-rate
- Title(参考訳): FAIVConf: ビットレートの低いAIベースのビデオ会議のための顔強化
- Authors: Zhengang Li, Sheng Lin, Shan Liu, Songnan Li, Xue Lin, Wei Wang and
Wei Jiang
- Abstract要約: FAIVConfは、人間の顔生成技術に基づくビデオ会議のためのビデオ圧縮フレームワークである。
本手法は,H.264とH.265の符号化方式と比較して,ビデオ会議におけるビットレートの大幅な削減を実現し,同じビットレート下での視覚的品質を大幅に向上させる。
- 参考スコア(独自算出の注目度): 44.29847582539488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, high-quality video conferencing with fewer transmission bits has
become a very hot and challenging problem. We propose FAIVConf, a specially
designed video compression framework for video conferencing, based on the
effective neural human face generation techniques. FAIVConf brings together
several designs to improve the system robustness in real video conference
scenarios: face-swapping to avoid artifacts in background animation; facial
blurring to decrease transmission bit-rate and maintain the quality of
extracted facial landmarks; and dynamic source update for face view
interpolation to accommodate a large range of head poses. Our method achieves a
significant bit-rate reduction in the video conference and gives much better
visual quality under the same bit-rate compared with H.264 and H.265 coding
schemes.
- Abstract(参考訳): 近年,伝送ビットの少ない高品質なビデオ会議が注目され,課題となっている。
本稿では,効果的なニューラルヒューマンフェイス生成技術に基づくビデオ会議のための特別に設計されたビデオ圧縮フレームワークであるfaivconfを提案する。
FAIVConfは、バックグラウンドアニメーションのアーティファクトを避けるためのフェイススワッピング、送信ビットレートを減らし、抽出された顔のランドマークの品質を維持するための顔のぼかし、広範囲の頭部ポーズに対応するための顔ビュー補間のための動的ソース更新など、実際のビデオ会議シナリオにおけるシステムの堅牢性を改善するための設計をまとめている。
提案手法は,h.264 や h.265 の符号化方式に比べて,ビデオ会議のビットレートを大幅に低減し,同じビットレートで視覚的品質が向上する。
関連論文リスト
- Perceptual Quality Improvement in Videoconferencing using
Keyframes-based GAN [28.773037051085318]
本稿では,ビデオ会議における圧縮アーティファクト削減のための新しいGAN手法を提案する。
まず,圧縮および参照フレームからマルチスケールの特徴を抽出する。
そして、私たちのアーキテクチャは、顔のランドマークに従って、これらの特徴を段階的に組み合わせます。
論文 参考訳(メタデータ) (2023-11-07T16:38:23Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - Perceptual Quality Assessment of Face Video Compression: A Benchmark and
An Effective Method [69.868145936998]
生成的符号化アプローチは、合理的な速度歪曲トレードオフを持つ有望な代替手段として認識されている。
従来のハイブリッドコーディングフレームワークから生成モデルまで、空間的・時間的領域における歪みの多様さは、圧縮顔画像品質評価(VQA)における大きな課題を提示する。
大規模圧縮顔画像品質評価(CFVQA)データベースを導入し,顔ビデオの知覚的品質と多角化圧縮歪みを体系的に理解するための最初の試みである。
論文 参考訳(メタデータ) (2023-04-14T11:26:09Z) - Interactive Face Video Coding: A Generative Compression Framework [18.26476468644723]
本稿では,対話型顔映像符号化(IFVC)のための新しいフレームワークを提案する。
提案手法には,超コンパクト表現,低遅延相互作用,鮮明な表現と主目的アニメーションなど,いくつかの利点がある。
論文 参考訳(メタデータ) (2023-02-20T11:24:23Z) - Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。
提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2022-06-27T06:48:15Z) - Stitch it in Time: GAN-Based Facial Editing of Real Videos [38.81306268180105]
本稿では,映像中の顔のセマンティックな編集を行うフレームワークを提案する。
提案手法は,有意義な顔操作を行い,高い時間的一貫性を維持し,難易度,高品質な音声ヘッドビデオに適用することができる。
論文 参考訳(メタデータ) (2022-01-20T18:48:20Z) - UniFaceGAN: A Unified Framework for Temporally Consistent Facial Video
Editing [78.26925404508994]
我々は,UniFaceGANと呼ばれる時間的に一貫した顔画像編集フレームワークを提案する。
本フレームワークは,顔交換と顔再現を同時に行うように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2021-08-12T10:35:22Z) - Multi-modality Deep Restoration of Extremely Compressed Face Videos [36.83490465562509]
我々は,積極的に圧縮された顔映像を復元するための多モードディープ畳み込みニューラルネットワーク手法を開発した。
主な革新は、複数のモダリティの既知の事前を組み込んだ新しいDCNNアーキテクチャである。
フェースビデオ上でのDCNN手法の優れた性能を実証するために, 実験的な証拠を多数提示した。
論文 参考訳(メタデータ) (2021-07-05T16:29:02Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。