Fugu-MT 論文翻訳(概要): FAIVConf: Face enhancement for AI-based Video Conference with Low Bit-rate

論文の概要: FAIVConf: Face enhancement for AI-based Video Conference with Low Bit-rate

arxiv url: http://arxiv.org/abs/2207.04090v1
Date: Fri, 8 Jul 2022 18:29:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-12 13:29:08.736585
Title: FAIVConf: Face enhancement for AI-based Video Conference with Low Bit-rate
Title（参考訳）: FAIVConf: ビットレートの低いAIベースのビデオ会議のための顔強化
Authors: Zhengang Li, Sheng Lin, Shan Liu, Songnan Li, Xue Lin, Wei Wang and Wei Jiang
Abstract要約: FAIVConfは、人間の顔生成技術に基づくビデオ会議のためのビデオ圧縮フレームワークである。本手法は,H.264とH.265の符号化方式と比較して,ビデオ会議におけるビットレートの大幅な削減を実現し,同じビットレート下での視覚的品質を大幅に向上させる。
参考スコア（独自算出の注目度）: 44.29847582539488
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, high-quality video conferencing with fewer transmission bits has become a very hot and challenging problem. We propose FAIVConf, a specially designed video compression framework for video conferencing, based on the effective neural human face generation techniques. FAIVConf brings together several designs to improve the system robustness in real video conference scenarios: face-swapping to avoid artifacts in background animation; facial blurring to decrease transmission bit-rate and maintain the quality of extracted facial landmarks; and dynamic source update for face view interpolation to accommodate a large range of head poses. Our method achieves a significant bit-rate reduction in the video conference and gives much better visual quality under the same bit-rate compared with H.264 and H.265 coding schemes.
Abstract（参考訳）: 近年,伝送ビットの少ない高品質なビデオ会議が注目され,課題となっている。本稿では,効果的なニューラルヒューマンフェイス生成技術に基づくビデオ会議のための特別に設計されたビデオ圧縮フレームワークであるfaivconfを提案する。 FAIVConfは、バックグラウンドアニメーションのアーティファクトを避けるためのフェイススワッピング、送信ビットレートを減らし、抽出された顔のランドマークの品質を維持するための顔のぼかし、広範囲の頭部ポーズに対応するための顔ビュー補間のための動的ソース更新など、実際のビデオ会議シナリオにおけるシステムの堅牢性を改善するための設計をまとめている。提案手法は,h.264 や h.265 の符号化方式に比べて,ビデオ会議のビットレートを大幅に低減し,同じビットレートで視覚的品質が向上する。

関連論文リスト

Audio-Visual Driven Compression for Low-Bitrate Talking Head Videos [7.105786967332924]
本稿では,コンパクトな3Dモーション機能と音声信号を統合した,新しい音声視覚駆動ビデオを提案する。 CelebV-HQデータセットの実験では,VVCに比べて22%削減された。これは、同等の帯域幅で優れたリップシンク精度と視覚的忠実度を提供する。
論文参考訳（メタデータ） (2025-06-16T12:34:48Z)
SVFR: A Unified Framework for Generalized Video Face Restoration [86.17060212058452]
顔復元(FR)は画像およびビデオ処理において重要な領域であり、劣化した入力から高品質な肖像画を再構成することに焦点を当てている。本稿では,映像BFR,インペイント,カラー化タスクを統合した汎用映像顔復元タスクを提案する。この研究は、ビデオFRにおける最先端技術を進め、一般化されたビデオ顔の復元のための新しいパラダイムを確立する。
論文参考訳（メタデータ） (2025-01-02T12:51:20Z)
Efficient Video Face Enhancement with Enhanced Spatial-Temporal Consistency [36.939731355462264]
本研究では,新規で効率的なブラインド・ビデオ・フェース・エンハンスメント法を提案する。圧縮された低品質バージョンから、効率的なデフリック機構で高品質の動画を復元する。 VFHQ-Testデータセットで行った実験は、我々の手法が現在の最先端のブラインド・フェイス・ビデオの復元と、効率と有効性の両面での解フリック法を超越していることを示している。
論文参考訳（メタデータ） (2024-11-25T15:14:36Z)
Kalman-Inspired Feature Propagation for Video Face Super-Resolution [78.84881180336744]
時間前に安定した顔を維持するための新しい枠組みを導入する。カルマンフィルタの原理は,従来の復元フレームからの情報を用いて,現在のフレームの復元過程をガイドし,調整することができる。ビデオフレーム間で顔の細部を連続的にキャプチャする手法の有効性を実験により実証した。
論文参考訳（メタデータ） (2024-08-09T17:57:12Z)
FacEnhance: Facial Expression Enhancing with Recurrent DDPMs [1.4732811715354455]
FacEnhanceは低解像度の表情ビデオ(64x64ピクセル)を高解像度(192x192ピクセル)に拡張する FacEnhanceは、資源効率が高く、高忠実な表情生成に向けて大きな進歩を示している。
論文参考訳（メタデータ） (2024-06-13T12:23:35Z)
Perceptual Quality Improvement in Videoconferencing using Keyframes-based GAN [28.773037051085318]
本稿では,ビデオ会議における圧縮アーティファクト削減のための新しいGAN手法を提案する。まず,圧縮および参照フレームからマルチスケールの特徴を抽出する。そして、私たちのアーキテクチャは、顔のランドマークに従って、これらの特徴を段階的に組み合わせます。
論文参考訳（メタデータ） (2023-11-07T16:38:23Z)
GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。 NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文参考訳（メタデータ） (2023-05-01T12:24:09Z)
Perceptual Quality Assessment of Face Video Compression: A Benchmark and An Effective Method [69.868145936998]
生成的符号化アプローチは、合理的な速度歪曲トレードオフを持つ有望な代替手段として認識されている。従来のハイブリッドコーディングフレームワークから生成モデルまで、空間的・時間的領域における歪みの多様さは、圧縮顔画像品質評価(VQA)における大きな課題を提示する。大規模圧縮顔画像品質評価(CFVQA)データベースを導入し,顔ビデオの知覚的品質と多角化圧縮歪みを体系的に理解するための最初の試みである。
論文参考訳（メタデータ） (2023-04-14T11:26:09Z)
Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文参考訳（メタデータ） (2022-06-27T06:48:15Z)
UniFaceGAN: A Unified Framework for Temporally Consistent Facial Video Editing [78.26925404508994]
我々は,UniFaceGANと呼ばれる時間的に一貫した顔画像編集フレームワークを提案する。本フレームワークは,顔交換と顔再現を同時に行うように設計されている。現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文参考訳（メタデータ） (2021-08-12T10:35:22Z)
Multi-modality Deep Restoration of Extremely Compressed Face Videos [36.83490465562509]
我々は,積極的に圧縮された顔映像を復元するための多モードディープ畳み込みニューラルネットワーク手法を開発した。主な革新は、複数のモダリティの既知の事前を組み込んだ新しいDCNNアーキテクチャである。フェースビデオ上でのDCNN手法の優れた性能を実証するために, 実験的な証拠を多数提示した。
論文参考訳（メタデータ） (2021-07-05T16:29:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。