論文の概要: Facial Attractiveness Prediction in Live Streaming: A New Benchmark and Multi-modal Method
- arxiv url: http://arxiv.org/abs/2501.02509v1
- Date: Sun, 05 Jan 2025 11:43:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:07:17.877666
- Title: Facial Attractiveness Prediction in Live Streaming: A New Benchmark and Multi-modal Method
- Title(参考訳): ライブストリーミングにおける顔の魅力予測:新しいベンチマークとマルチモーダル手法
- Authors: Hui Li, Xiaoyu Ren, Hongjiu Yu, Huiyu Duan, Kai Li, Ying Chen, Libo Wang, Xiongkuo Min, Guangtao Zhai, Xu Liu,
- Abstract要約: われわれはLiveBeautyについて紹介する。LiveBeautyは、大規模な顔の魅力予測データセットである。
ライブストリーミングプラットフォームから直接1万枚の顔画像が収集される。
ライブストリーミングにおける顔の魅力を測定するために,マルチモーダルFAP法を提案する。
- 参考スコア(独自算出の注目度): 52.03681172828628
- License:
- Abstract: Facial attractiveness prediction (FAP) has long been an important computer vision task, which could be widely applied in live streaming for facial retouching, content recommendation, etc. However, previous FAP datasets are either small, closed-source, or lack diversity. Moreover, the corresponding FAP models exhibit limited generalization and adaptation ability. To overcome these limitations, in this paper we present LiveBeauty, the first large-scale live-specific FAP dataset, in a more challenging application scenario, i.e., live streaming. 10,000 face images are collected from a live streaming platform directly, with 200,000 corresponding attractiveness annotations obtained from a well-devised subjective experiment, making LiveBeauty the largest open-access FAP dataset in the challenging live scenario. Furthermore, a multi-modal FAP method is proposed to measure the facial attractiveness in live streaming. Specifically, we first extract holistic facial prior knowledge and multi-modal aesthetic semantic features via a Personalized Attractiveness Prior Module (PAPM) and a Multi-modal Attractiveness Encoder Module (MAEM), respectively, then integrate the extracted features through a Cross-Modal Fusion Module (CMFM). Extensive experiments conducted on both LiveBeauty and other open-source FAP datasets demonstrate that our proposed method achieves state-of-the-art performance. Dataset will be available soon.
- Abstract(参考訳): 顔の魅力予測(FAP)は、長い間重要なコンピュータビジョンタスクであり、顔のリタッチやコンテンツレコメンデーションなどのライブストリーミングに広く応用される可能性がある。
しかしながら、以前のFAPデータセットは小さく、クローズドソースであるか、多様性がないかのいずれかである。
さらに、対応するFAPモデルは、限定的な一般化と適応能力を示す。
これらの制限を克服するため、本論文では、ライブストリーミングというより困難なアプリケーションシナリオにおいて、最初の大規模ライブ固有FAPデータセットであるLiveBeautyを提示する。
ライブストリーミングプラットフォームから直接1万の顔画像が収集され、十分に設計された主観的な実験から得られた20,000の魅力的なアノテーションによって、LiveBeautyは挑戦的なライブシナリオにおいて最大のオープンアクセスFAPデータセットとなっている。
さらに,ライブストリーミングにおける顔の魅力を測定するために,マルチモーダルFAP法を提案する。
具体的には,まず,Personalized Attractiveness Prior Module (PAPM) とMulti-modal Attractiveness Encoder Module (MAEM) を用いて,総合的な顔前知識とマルチモーダルな美的意味的特徴を抽出し,その特徴をCross-Modal Fusion Module (CMFM) を通じて統合する。
LiveBeautyと他のオープンソースFAPデータセットを用いた大規模な実験により,提案手法が最先端の性能を実現することを示す。
Datasetはもうすぐ提供される。
関連論文リスト
- Learning Free Token Reduction for Multi-Modal LLM [3.4026156483879517]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
しかし、それらの実践的な展開は、しばしば高い計算コストと長期の推論時間によって制約される。
本稿では,空間次元と時間次元の両方で動作するトークン圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2025-01-29T02:52:32Z) - Multi-modal Pose Diffuser: A Multimodal Generative Conditional Pose Prior [8.314155285516073]
MOPEDは、SMPLポーズパラメータの先行として、新しいマルチモーダル条件拡散モデルを利用する最初の方法である。
本手法は,画像やテキストなどのマルチモーダル入力の条件付けが可能な,強力な非条件ポーズ生成を提供する。
論文 参考訳(メタデータ) (2024-10-18T15:29:19Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Generalized Face Liveness Detection via De-fake Face Generator [52.23271636362843]
以前の顔アンチスプーフィング(FAS)手法は、目に見えない領域に一般化するという課題に直面している。
本稿では,大規模に付加的な現実面を効果的に活用できるAnomalous cue Guided FAS (AG-FAS)法を提案する。
提案手法は,未知のシナリオと未知のプレゼンテーションアタックを用いたクロスドメイン評価において,最先端の結果を実現する。
論文 参考訳(メタデータ) (2024-01-17T06:59:32Z) - Toward High Quality Facial Representation Learning [58.873356953627614]
我々はMask Contrastive Face (MCF)と呼ばれる自己教師型事前学習フレームワークを提案する。
トレーニング済みの視覚バックボーンの特徴マップを監視項目として使用し、マスク画像モデリングに部分的にトレーニング済みのデコーダを使用する。
このモデルはAFLW-19顔アライメントの0.932 NME_diag$とLaPa顔解析の93.96 F1スコアを達成する。
論文 参考訳(メタデータ) (2023-09-07T09:11:49Z) - Face Anti-Spoofing with Human Material Perception [76.4844593082362]
フェース・アンチ・スプーフィング(FAS)は、プレゼンテーション攻撃から顔認識システムを保護する上で重要な役割を担っている。
我々は、顔の反偽造を物質認識問題として言い換え、それを古典的な人間の物質知覚と組み合わせる。
本稿では,本質的な素材に基づくパターンをキャプチャ可能なバイラテラル畳み込みネットワーク(BCN)を提案する。
論文 参考訳(メタデータ) (2020-07-04T18:25:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。