論文の概要: FAIVConf: Face enhancement for AI-based Video Conference with Low
Bit-rate
- arxiv url: http://arxiv.org/abs/2207.04090v1
- Date: Fri, 8 Jul 2022 18:29:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 13:29:08.736585
- Title: FAIVConf: Face enhancement for AI-based Video Conference with Low
Bit-rate
- Title(参考訳): FAIVConf: ビットレートの低いAIベースのビデオ会議のための顔強化
- Authors: Zhengang Li, Sheng Lin, Shan Liu, Songnan Li, Xue Lin, Wei Wang and
Wei Jiang
- Abstract要約: FAIVConfは、人間の顔生成技術に基づくビデオ会議のためのビデオ圧縮フレームワークである。
本手法は,H.264とH.265の符号化方式と比較して,ビデオ会議におけるビットレートの大幅な削減を実現し,同じビットレート下での視覚的品質を大幅に向上させる。
- 参考スコア(独自算出の注目度): 44.29847582539488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, high-quality video conferencing with fewer transmission bits has
become a very hot and challenging problem. We propose FAIVConf, a specially
designed video compression framework for video conferencing, based on the
effective neural human face generation techniques. FAIVConf brings together
several designs to improve the system robustness in real video conference
scenarios: face-swapping to avoid artifacts in background animation; facial
blurring to decrease transmission bit-rate and maintain the quality of
extracted facial landmarks; and dynamic source update for face view
interpolation to accommodate a large range of head poses. Our method achieves a
significant bit-rate reduction in the video conference and gives much better
visual quality under the same bit-rate compared with H.264 and H.265 coding
schemes.
- Abstract(参考訳): 近年,伝送ビットの少ない高品質なビデオ会議が注目され,課題となっている。
本稿では,効果的なニューラルヒューマンフェイス生成技術に基づくビデオ会議のための特別に設計されたビデオ圧縮フレームワークであるfaivconfを提案する。
FAIVConfは、バックグラウンドアニメーションのアーティファクトを避けるためのフェイススワッピング、送信ビットレートを減らし、抽出された顔のランドマークの品質を維持するための顔のぼかし、広範囲の頭部ポーズに対応するための顔ビュー補間のための動的ソース更新など、実際のビデオ会議シナリオにおけるシステムの堅牢性を改善するための設計をまとめている。
提案手法は,h.264 や h.265 の符号化方式に比べて,ビデオ会議のビットレートを大幅に低減し,同じビットレートで視覚的品質が向上する。
関連論文リスト
- SVFR: A Unified Framework for Generalized Video Face Restoration [86.17060212058452]
顔復元(FR)は画像およびビデオ処理において重要な領域であり、劣化した入力から高品質な肖像画を再構成することに焦点を当てている。
本稿では,映像BFR,インペイント,カラー化タスクを統合した汎用映像顔復元タスクを提案する。
この研究は、ビデオFRにおける最先端技術を進め、一般化されたビデオ顔の復元のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-01-02T12:51:20Z) - Efficient Video Face Enhancement with Enhanced Spatial-Temporal Consistency [36.939731355462264]
本研究では,新規で効率的なブラインド・ビデオ・フェース・エンハンスメント法を提案する。
圧縮された低品質バージョンから、効率的なデフリック機構で高品質の動画を復元する。
VFHQ-Testデータセットで行った実験は、我々の手法が現在の最先端のブラインド・フェイス・ビデオの復元と、効率と有効性の両面での解フリック法を超越していることを示している。
論文 参考訳(メタデータ) (2024-11-25T15:14:36Z) - FacEnhance: Facial Expression Enhancing with Recurrent DDPMs [1.4732811715354455]
FacEnhanceは低解像度の表情ビデオ(64x64ピクセル)を高解像度(192x192ピクセル)に拡張する
FacEnhanceは、資源効率が高く、高忠実な表情生成に向けて大きな進歩を示している。
論文 参考訳(メタデータ) (2024-06-13T12:23:35Z) - Perceptual Quality Improvement in Videoconferencing using
Keyframes-based GAN [28.773037051085318]
本稿では,ビデオ会議における圧縮アーティファクト削減のための新しいGAN手法を提案する。
まず,圧縮および参照フレームからマルチスケールの特徴を抽出する。
そして、私たちのアーキテクチャは、顔のランドマークに従って、これらの特徴を段階的に組み合わせます。
論文 参考訳(メタデータ) (2023-11-07T16:38:23Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - Perceptual Quality Assessment of Face Video Compression: A Benchmark and
An Effective Method [69.868145936998]
生成的符号化アプローチは、合理的な速度歪曲トレードオフを持つ有望な代替手段として認識されている。
従来のハイブリッドコーディングフレームワークから生成モデルまで、空間的・時間的領域における歪みの多様さは、圧縮顔画像品質評価(VQA)における大きな課題を提示する。
大規模圧縮顔画像品質評価(CFVQA)データベースを導入し,顔ビデオの知覚的品質と多角化圧縮歪みを体系的に理解するための最初の試みである。
論文 参考訳(メタデータ) (2023-04-14T11:26:09Z) - Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。
提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2022-06-27T06:48:15Z) - UniFaceGAN: A Unified Framework for Temporally Consistent Facial Video
Editing [78.26925404508994]
我々は,UniFaceGANと呼ばれる時間的に一貫した顔画像編集フレームワークを提案する。
本フレームワークは,顔交換と顔再現を同時に行うように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2021-08-12T10:35:22Z) - Multi-modality Deep Restoration of Extremely Compressed Face Videos [36.83490465562509]
我々は,積極的に圧縮された顔映像を復元するための多モードディープ畳み込みニューラルネットワーク手法を開発した。
主な革新は、複数のモダリティの既知の事前を組み込んだ新しいDCNNアーキテクチャである。
フェースビデオ上でのDCNN手法の優れた性能を実証するために, 実験的な証拠を多数提示した。
論文 参考訳(メタデータ) (2021-07-05T16:29:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。