論文の概要: FacEnhance: Facial Expression Enhancing with Recurrent DDPMs
- arxiv url: http://arxiv.org/abs/2406.09040v1
- Date: Thu, 13 Jun 2024 12:23:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 18:15:03.603487
- Title: FacEnhance: Facial Expression Enhancing with Recurrent DDPMs
- Title(参考訳): FacEnhance: 反復DDPMによる表情強調
- Authors: Hamza Bouzid, Lahoucine Ballihi,
- Abstract要約: FacEnhanceは低解像度の表情ビデオ(64x64ピクセル)を高解像度(192x192ピクセル)に拡張する
FacEnhanceは、資源効率が高く、高忠実な表情生成に向けて大きな進歩を示している。
- 参考スコア(独自算出の注目度): 1.4732811715354455
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Facial expressions, vital in non-verbal human communication, have found applications in various computer vision fields like virtual reality, gaming, and emotional AI assistants. Despite advancements, many facial expression generation models encounter challenges such as low resolution (e.g., 32x32 or 64x64 pixels), poor quality, and the absence of background details. In this paper, we introduce FacEnhance, a novel diffusion-based approach addressing constraints in existing low-resolution facial expression generation models. FacEnhance enhances low-resolution facial expression videos (64x64 pixels) to higher resolutions (192x192 pixels), incorporating background details and improving overall quality. Leveraging conditional denoising within a diffusion framework, guided by a background-free low-resolution video and a single neutral expression high-resolution image, FacEnhance generates a video incorporating the facial expression from the low-resolution video performed by the individual with background from the neutral image. By complementing lightweight low-resolution models, FacEnhance strikes a balance between computational efficiency and desirable image resolution and quality. Extensive experiments on the MUG facial expression database demonstrate the efficacy of FacEnhance in enhancing low-resolution model outputs to state-of-the-art quality while preserving content and identity consistency. FacEnhance represents significant progress towards resource-efficient, high-fidelity facial expression generation, Renewing outdated low-resolution methods to up-to-date standards.
- Abstract(参考訳): 非言語的人間のコミュニケーションに不可欠な表情は、仮想現実、ゲーム、感情的なAIアシスタントなど、さまざまなコンピュータビジョン分野に応用されている。
進歩にもかかわらず、多くの表情生成モデルは、低解像度(例えば、32x32または64x64ピクセル)、品質の低下、背景の詳細の欠如といった課題に直面している。
本稿では,既存の低解像度表情生成モデルにおける制約に対処する新しい拡散型アプローチであるFacEnhanceを紹介する。
FacEnhanceは低解像度の表情ビデオ(64x64ピクセル)を高解像度(192x192ピクセル)に拡張し、背景の詳細を取り入れ、全体的な品質を向上させる。
背景のない低解像度ビデオと1つの中性表現高解像度画像でガイドされた拡散フレームワーク内の条件記述を利用して、FacEnhanceは、中性画像から背景を持つ個人によって実行される低解像度映像から、表情を取り入れた映像を生成する。
軽量の低解像度モデルを補完することにより、FacEnhanceは計算効率と望ましい画像解像度と品質のバランスを取る。
MUG表情データベースの大規模な実験は、FacEnhanceが、コンテンツとアイデンティティの整合性を保ちながら、低解像度のモデル出力を最先端の品質に高める効果を実証している。
FacEnhanceは、リソース効率が高く、高忠実な表情生成への大きな進歩を示し、時代遅れの低解像度メソッドを最新の標準に更新する。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - DaLPSR: Leverage Degradation-Aligned Language Prompt for Real-World Image Super-Resolution [19.33582308829547]
本稿では, 精度, 精細度, 高忠実度画像復元のために, 劣化対応言語プロンプトを活用することを提案する。
提案手法は,新しい最先端の知覚品質レベルを実現する。
論文 参考訳(メタデータ) (2024-06-24T09:30:36Z) - PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved
Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。
PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。
生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文 参考訳(メタデータ) (2023-12-11T13:03:29Z) - Realistic Speech-to-Face Generation with Speech-Conditioned Latent
Diffusion Model with Face Prior [13.198105709331617]
本稿では,SCLDMと呼ばれる音声合成遅延拡散モデルを利用した音声合成フレームワークを提案する。
これは、音声対面生成のための拡散モデルの例外的モデリング機能を利用する最初の試みである。
提案手法は,最先端の手法よりも話者のアイデンティティを保ちながら,よりリアルな顔画像を生成することができることを示す。
論文 参考訳(メタデータ) (2023-10-05T07:44:49Z) - GaFET: Learning Geometry-aware Facial Expression Translation from
In-The-Wild Images [55.431697263581626]
本稿では,パラメトリックな3次元顔表現をベースとした新しい顔表情翻訳フレームワークを提案する。
我々は、最先端の手法と比較して、高品質で正確な表情伝達結果を実現し、様々なポーズや複雑なテクスチャの適用性を実証する。
論文 参考訳(メタデータ) (2023-08-07T09:03:35Z) - Cross-resolution Face Recognition via Identity-Preserving Network and
Knowledge Distillation [12.090322373964124]
クロスレゾリューション顔認識は、現代の深層顔認識システムにとって難しい問題である。
本稿では,低分解能画像の低周波成分に蓄積される識別情報にネットワークを集中させる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-15T14:52:46Z) - LR-to-HR Face Hallucination with an Adversarial Progressive
Attribute-Induced Network [67.64536397027229]
顔の超解像は難しい問題であり、非常に不適切な問題である。
顔の特徴を取り入れたエンドツーエンドのプログレッシブ・ラーニング・フレームワークを提案する。
提案手法は,他の最先端アプローチよりも良好な顔幻覚像が得られることを示す。
論文 参考訳(メタデータ) (2021-09-29T19:50:45Z) - Network Architecture Search for Face Enhancement [82.25775020564654]
我々は、NASFE(Network Architecture Search for Face Enhancement)と呼ばれるマルチタスクの顔復元ネットワークを提案する。
NASFEは、単一の劣化(すなわち)を含む低品質の顔画像を高めることができる。
ノイズまたはぼやけ)または複数の劣化(ノイズ+ブラル+ローライト)
論文 参考訳(メタデータ) (2021-05-13T19:46:05Z) - Joint Face Image Restoration and Frontalization for Recognition [79.78729632975744]
現実世界のシナリオでは、大きなポーズ、悪い照明、低解像度、ぼやけ、ノイズなど、多くの要因が顔認識性能を損なう可能性がある。
それまでの努力は通常、まず品質の低い顔から高品質な顔に復元し、次に顔認識を行う。
与えられた低品質の顔からフロンダル化された高品質の顔を復元する多段階顔復元モデルを提案する。
論文 参考訳(メタデータ) (2021-05-12T03:52:41Z) - Speech Fusion to Face: Bridging the Gap Between Human's Vocal
Characteristics and Facial Imaging [19.285149134711382]
音声の発声特性に基づく顔画像生成は重要な課題である。
speech2faceの問題に対する既存の解決策は、限られた画像品質をレンダリングし、顔の類似性を維持するのに失敗する。
本稿では,顔への音声融合(SF2F)を提案し,音声特徴領域と現代画像生成モデルとの接続性の問題に対処する。
論文 参考訳(メタデータ) (2020-06-10T15:19:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。