論文の概要: Uncertainty-Guided Face Matting for Occlusion-Aware Face Transformation
- arxiv url: http://arxiv.org/abs/2508.03055v1
- Date: Tue, 05 Aug 2025 04:00:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.767854
- Title: Uncertainty-Guided Face Matting for Occlusion-Aware Face Transformation
- Title(参考訳): 閉塞型顔変換のための不確かさ誘導型顔マッチング
- Authors: Hyebin Cho, Jaehyup Lee,
- Abstract要約: フェースフィルターはショートフォームビデオコンテンツの重要な要素となり、スタイリゼーションやフェイススワップといった幅広い視覚効果を可能にしている。
そこで我々は, 顔領域から咬合要素を分離するために, 微細なアルファマットを推定する, 顔マッチングの新たな課題を紹介した。
複雑な閉塞下で高品質なアルファマットを予測する,トリマップフリーで不確実性を考慮したフレームワークFaceMatを提案する。
- 参考スコア(独自算出の注目度): 1.4195677954898822
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Face filters have become a key element of short-form video content, enabling a wide array of visual effects such as stylization and face swapping. However, their performance often degrades in the presence of occlusions, where objects like hands, hair, or accessories obscure the face. To address this limitation, we introduce the novel task of face matting, which estimates fine-grained alpha mattes to separate occluding elements from facial regions. We further present FaceMat, a trimap-free, uncertainty-aware framework that predicts high-quality alpha mattes under complex occlusions. Our approach leverages a two-stage training pipeline: a teacher model is trained to jointly estimate alpha mattes and per-pixel uncertainty using a negative log-likelihood (NLL) loss, and this uncertainty is then used to guide the student model through spatially adaptive knowledge distillation. This formulation enables the student to focus on ambiguous or occluded regions, improving generalization and preserving semantic consistency. Unlike previous approaches that rely on trimaps or segmentation masks, our framework requires no auxiliary inputs making it well-suited for real-time applications. In addition, we reformulate the matting objective by explicitly treating skin as foreground and occlusions as background, enabling clearer compositing strategies. To support this task, we newly constructed CelebAMat, a large-scale synthetic dataset specifically designed for occlusion-aware face matting. Extensive experiments show that FaceMat outperforms state-of-the-art methods across multiple benchmarks, enhancing the visual quality and robustness of face filters in real-world, unconstrained video scenarios. The source code and CelebAMat dataset are available at https://github.com/hyebin-c/FaceMat.git
- Abstract(参考訳): フェースフィルターはショートフォームビデオコンテンツの重要な要素となり、スタイリゼーションやフェイススワップといった幅広い視覚効果を可能にしている。
しかし、そのパフォーマンスは、手、髪、アクセサリーなどの物体が顔を隠しているオクルージョンの存在下で劣化することが多い。
この制限に対処するために,顔領域から介在する要素を分離するために,微細なアルファマットを推定する顔マッチングという新しいタスクを導入する。
さらに、複雑な閉塞下で高品質なアルファマットを予測する、トリマップフリーで不確実性を意識したフレームワークFaceMatを提示する。
教師モデルは、負の対数類似度(NLL)損失を用いて、アルファマットと画素ごとの不確かさを共同で推定する訓練を行い、この不確実性は、空間適応的知識蒸留を通じて学生モデルを誘導する。
この定式化により、学生はあいまいな領域や隠された領域に集中でき、一般化を改善し、意味的一貫性を保つことができる。
従来のトリマップやセグメンテーションマスクに依存していたアプローチとは異なり、我々のフレームワークは、リアルタイムアプリケーションに適した補助的な入力を必要としない。
さらに, 皮膚を前景として, 咬合を背景として明示的に扱うことにより, 交配対象を再構築し, より明確な構成戦略を可能にする。
この課題を支援するために,我々は,咬合認識顔マッチングに特化した大規模合成データセットであるCelebAMatを新たに構築した。
大規模な実験によると、FaceMatは複数のベンチマークで最先端の手法よりも優れており、実世界の制約のないビデオシナリオにおける顔フィルターの視覚的品質と堅牢性を高めている。
ソースコードとCelebAMatデータセットはhttps://github.com/hyebin-c/FaceMat.gitで公開されている。
関連論文リスト
- CLR-Face: Conditional Latent Refinement for Blind Face Restoration Using
Score-Based Diffusion Models [57.9771859175664]
最近の生成優先法は、有望なブラインドフェイス修復性能を示している。
入力に忠実なきめ細かい顔の詳細を生成することは、依然として難しい問題である。
本稿では,VQGANアーキテクチャの内部に拡散型プライマーを導入し,非破壊な潜伏埋め込みにおける分布の学習に重点を置いている。
論文 参考訳(メタデータ) (2024-02-08T23:51:49Z) - High-Fidelity Face Swapping with Style Blending [16.024260677867076]
高忠実な顔交換のための革新的なエンドツーエンドフレームワークを提案する。
まず、スタイルGANベースの顔属性エンコーダを導入し、顔から重要な特徴を抽出し、潜在スタイルコードに変換する。
第二に、ターゲットからターゲットへFace IDを効果的に転送するアテンションベースのスタイルブレンディングモジュールを導入する。
論文 参考訳(メタデータ) (2023-12-17T23:22:37Z) - Occlusion-Aware Deep Convolutional Neural Network via Homogeneous Tanh-transforms for Face Parsing [2.062767930320204]
顔解析は、各意味的顔成分に対して画素単位のラベルマップを推論する。
4つのタン変換からなる画像前処理のための新しい均一なタン変換を提案する。
均質なtanh-transformsに基づいて,隠蔽顔解析のためのオクルージョン対応畳み込みニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T14:20:13Z) - COMICS: End-to-end Bi-grained Contrastive Learning for Multi-face Forgery Detection [56.7599217711363]
顔偽造認識法は一度に1つの顔しか処理できない。
ほとんどの顔偽造認識法は一度に1つの顔しか処理できない。
マルチフェイスフォージェリ検出のためのエンドツーエンドフレームワークであるCOMICSを提案する。
論文 参考訳(メタデータ) (2023-08-03T03:37:13Z) - End-to-end Face-swapping via Adaptive Latent Representation Learning [12.364688530047786]
本稿では,高精細・高精細・高精細・高精細・高精細な顔交換のための新しいエンドツーエンド統合フレームワークを提案する。
顔の知覚とブレンドをエンドツーエンドのトレーニングとテストのプロセスに統合することで、野生の顔に高いリアルな顔スワッピングを実現することができる。
論文 参考訳(メタデータ) (2023-03-07T19:16:20Z) - FaceOcc: A Diverse, High-quality Face Occlusion Dataset for Human Face
Extraction [3.8502825594372703]
隠蔽は野生の顔画像にしばしば発生し、ランドマーク検出や3D再構成、顔認識といった顔関連の課題に悩まされる。
本稿では,CelebA本社とインターネットから手動で顔の隠蔽をラベル付けした新しい顔のセグメンテーションデータセットを提案する。
簡単な顔分割モデルの訓練を行ったが,SOTA性能が得られ,提案したデータセットの有効性を実証した。
論文 参考訳(メタデータ) (2022-01-20T19:44:18Z) - Segmentation-Reconstruction-Guided Facial Image De-occlusion [48.952656891182826]
隠蔽は野生の顔画像で非常に一般的であり、顔関連タスクの劣化パフォーマンスに繋がる。
本稿では,顔分割と3次元顔再構成に基づく新しい顔除去モデルを提案する。
論文 参考訳(メタデータ) (2021-12-15T10:40:08Z) - End2End Occluded Face Recognition by Masking Corrupted Features [82.27588990277192]
最先端の一般的な顔認識モデルは、隠蔽された顔画像に対してうまく一般化しない。
本稿では,1つのエンドツーエンドのディープニューラルネットワークに基づいて,オクルージョンに頑健な新しい顔認識手法を提案する。
我々のアプローチは、深い畳み込みニューラルネットワークから破損した特徴を発見し、動的に学習されたマスクによってそれらをきれいにする。
論文 参考訳(メタデータ) (2021-08-21T09:08:41Z) - Pro-UIGAN: Progressive Face Hallucination from Occluded Thumbnails [53.080403912727604]
Inpainting Generative Adversarial Network, Pro-UIGANを提案する。
顔の形状を利用して、隠された小さな顔の補充とアップサンプリング(8*)を行う。
Pro-UIGANは、HR面を視覚的に満足させ、下流タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-08-02T02:29:24Z) - Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo
Collection [65.92058628082322]
非パラメトリックフェースモデリングは形状仮定なしで画像からのみ3次元フェースを再構成することを目的としている。
本稿では,教師なしのロバストな3次元顔モデリングのための学習・アグリゲート・パーソナライズ・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T03:10:17Z) - FaceShifter: Towards High Fidelity And Occlusion Aware Face Swapping [43.236261887752065]
本研究では,顔交換のための2段階フレームワークであるFaceShifterを提案する。
最初の段階では、ターゲット属性を徹底的かつ適応的に利用して、スワップされた顔を高忠実に生成する。
難解な顔合成に対処するために、HEAR-Net(Huristic Err Accnowledging Refinement Network)と呼ばれる新しいヒューリスティック・エラー認識ネットワーク(Heuristic Err Acknowledging Refinement Network)の第2ステージを付加する。
論文 参考訳(メタデータ) (2019-12-31T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。