論文の概要: Decoding Emotions: Unveiling Facial Expressions through Acoustic Sensing with Contrastive Attention
- arxiv url: http://arxiv.org/abs/2410.12811v1
- Date: Tue, 01 Oct 2024 03:21:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-27 06:14:31.061976
- Title: Decoding Emotions: Unveiling Facial Expressions through Acoustic Sensing with Contrastive Attention
- Title(参考訳): 感情の復号:コントラストを考慮した音響センシングによる顔表情の発見
- Authors: Guangjing Wang, Juexing Wang, Ce Zhou, Weikang Ding, Huacheng Zeng, Tianxing Li, Qiben Yan,
- Abstract要約: FacER+はアクティブな音声表情認識システムである。
スマートフォンの3D顔輪郭とイヤホンスピーカとの間に放射される近超音波信号のエコーを分析して、表情特徴を抽出する。
多様なユーザーに依存しない現実のシナリオにおいて、90%以上の精度で6つの一般的な表情を正確に認識することができる。
- 参考スコア(独自算出の注目度): 7.975498710858804
- License:
- Abstract: Expression recognition holds great promise for applications such as content recommendation and mental healthcare by accurately detecting users' emotional states. Traditional methods often rely on cameras or wearable sensors, which raise privacy concerns and add extra device burdens. In addition, existing acoustic-based methods struggle to maintain satisfactory performance when there is a distribution shift between the training dataset and the inference dataset. In this paper, we introduce FacER+, an active acoustic facial expression recognition system, which eliminates the requirement for external microphone arrays. FacER+ extracts facial expression features by analyzing the echoes of near-ultrasound signals emitted between the 3D facial contour and the earpiece speaker on a smartphone. This approach not only reduces background noise but also enables the identification of different expressions from various users with minimal training data. We develop a contrastive external attention-based model to consistently learn expression features across different users, reducing the distribution differences. Extensive experiments involving 20 volunteers, both with and without masks, demonstrate that FacER+ can accurately recognize six common facial expressions with over 90% accuracy in diverse, user-independent real-life scenarios, surpassing the performance of the leading acoustic sensing methods by 10%. FacER+ offers a robust and practical solution for facial expression recognition.
- Abstract(参考訳): 表現認識は、ユーザの感情状態を正確に検出することで、コンテンツレコメンデーションやメンタルヘルスといったアプリケーションに大いに期待できる。
従来の方法はカメラやウェアラブルセンサーに頼っていることが多い。
さらに,既存の音響ベースの手法では,トレーニングデータセットと推論データセットの間に分布シフトがある場合,良好な性能を維持するのに苦労する。
本稿では,外部マイクロホンアレイの必要をなくし,アクティブな音声表情認識システムであるFacER+を紹介する。
FacER+は、スマートフォン上の3次元顔輪郭とイヤホンスピーカーとの間に放射される近超音波信号のエコーを分析して、表情特徴を抽出する。
このアプローチは、バックグラウンドノイズを低減するだけでなく、トレーニングデータを最小限にして、さまざまなユーザから異なる表現を識別することを可能にする。
我々は、異なるユーザ間で表現機能を一貫して学習し、分散の違いを減らすために、対照的な外部注意に基づくモデルを開発する。
FacER+は、マスクの有無にかかわらず、20人のボランティアによる広範囲にわたる実験により、多様なユーザー非依存の現実のシナリオにおいて、90%以上の精度で6つの一般的な表情を正確に認識し、主要な音響センシング手法の性能を10%以上上回ることを示した。
FacER+は、顔認識のための堅牢で実用的なソリューションを提供する。
関連論文リスト
- Emotional Listener Portrait: Realistic Listener Motion Simulation in
Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。
このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。
本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。
ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文 参考訳(メタデータ) (2023-09-29T18:18:32Z) - SAFER: Situation Aware Facial Emotion Recognition [0.0]
表情から感情を認識する新しいシステムであるSAFERを提案する。
最先端のディープラーニング技術を使って、顔画像からさまざまな特徴を抽出する。
目に見えない多様な表情に適応でき、現実世界の用途に適している。
論文 参考訳(メタデータ) (2023-06-14T20:42:26Z) - An Approach for Improving Automatic Mouth Emotion Recognition [1.5293427903448025]
この研究は、畳み込みニューラルネットワーク(CNN)を用いた口検出による自動感情認識技術の提案と試験である。
この技術は、コミュニケーションスキルの問題のある健康障害の人々を支援するために応用される。
論文 参考訳(メタデータ) (2022-12-12T16:17:21Z) - CIAO! A Contrastive Adaptation Mechanism for Non-Universal Facial
Expression Recognition [80.07590100872548]
本稿では、顔エンコーダの最後の層に異なるデータセットの特定の感情特性を適応させるメカニズムであるContrastive Inhibitory Adaptati On(CIAO)を提案する。
CIAOは、非常にユニークな感情表現を持つ6つの異なるデータセットに対して、表情認識性能が改善されている。
論文 参考訳(メタデータ) (2022-08-10T15:46:05Z) - Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers [57.1091606948826]
我々はこれらの課題に対処するため,ポーカー・フェイス・ビジョン・トランスフォーマー (PF-ViT) と呼ばれる新しいFERモデルを提案する。
PF-ViTは、対応するポーカーフェースを生成して、乱れを認識できない感情を静的な顔画像から分離し、認識することを目的としている。
PF-ViTはバニラビジョントランスフォーマーを使用し、そのコンポーネントは大規模な表情データセット上でMasked Autoencodeerとして事前トレーニングされている。
論文 参考訳(メタデータ) (2022-07-22T13:39:06Z) - Multi-Cue Adaptive Emotion Recognition Network [4.570705738465714]
適応型マルチキューに基づく感情認識のための新しい深層学習手法を提案する。
提案手法とCAER-Sデータセットの最先端手法を比較した。
論文 参考訳(メタデータ) (2021-11-03T15:08:55Z) - A Multi-resolution Approach to Expression Recognition in the Wild [9.118706387430883]
顔認識タスクを解決するためのマルチリゾリューション手法を提案する。
私たちは、しばしば異なる解像度で画像が取得されるという観察を直感的に根拠としています。
我々は、Affect-in-the-Wild 2データセットに基づいてトレーニングされたSqueeze-and-Excitationブロックを備えたResNetのようなアーキテクチャを使用する。
論文 参考訳(メタデータ) (2021-03-09T21:21:02Z) - Facial Emotion Recognition with Noisy Multi-task Annotations [88.42023952684052]
ノイズの多いマルチタスクアノテーションを用いた顔の感情認識の新しい問題を提案する。
この新たな問題に対して,共同分布マッチングの観点からの定式化を提案する。
我々は,感情予測と共同分布学習を可能にする新しい手法を利用する。
論文 参考訳(メタデータ) (2020-10-19T20:39:37Z) - Learning Emotional-Blinded Face Representations [77.7653702071127]
感情反応に関連する表情に盲目な2つの顔表現を提案する。
この作業は、個人データ保護に関する新たな国際規則によって動機付けられている。
論文 参考訳(メタデータ) (2020-09-18T09:24:10Z) - Continuous Emotion Recognition via Deep Convolutional Autoencoder and
Support Vector Regressor [70.2226417364135]
マシンはユーザの感情状態を高い精度で認識できることが不可欠である。
ディープニューラルネットワークは感情を認識する上で大きな成功を収めている。
表情認識に基づく連続的感情認識のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-01-31T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。