論文の概要: Unimodal and Multimodal Static Facial Expression Recognition for Virtual Reality Users with EmoHeVRDB
- arxiv url: http://arxiv.org/abs/2412.11306v1
- Date: Sun, 15 Dec 2024 20:49:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:20.529824
- Title: Unimodal and Multimodal Static Facial Expression Recognition for Virtual Reality Users with EmoHeVRDB
- Title(参考訳): EmoHeVRDBを用いたバーチャルリアリティユーザのための一様・多モード静的顔表情認識
- Authors: Thorben Ortmann, Qi Wang, Larissa Putzar,
- Abstract要約: そこで我々は,顔表情認識(FER)のためのMeta Quest Pro Virtual Reality(VR)ヘッドセットを用いて取得した表情アクティベーション(FEA)をVR環境で活用する可能性を検討した。
その結果, 静的FERタスクに対して最大73.02%の精度を7つの感情カテゴリーで達成した。
我々は、FEAと画像データをマルチモーダルアプローチに統合し、認識精度の大幅な改善を観察した。
- 参考スコア(独自算出の注目度): 4.095418032380801
- License:
- Abstract: In this study, we explored the potential of utilizing Facial Expression Activations (FEAs) captured via the Meta Quest Pro Virtual Reality (VR) headset for Facial Expression Recognition (FER) in VR settings. Leveraging the EmojiHeroVR Database (EmoHeVRDB), we compared several unimodal approaches and achieved up to 73.02% accuracy for the static FER task with seven emotion categories. Furthermore, we integrated FEA and image data in multimodal approaches, observing significant improvements in recognition accuracy. An intermediate fusion approach achieved the highest accuracy of 80.42%, significantly surpassing the baseline evaluation result of 69.84% reported for EmoHeVRDB's image data. Our study is the first to utilize EmoHeVRDB's unique FEA data for unimodal and multimodal static FER, establishing new benchmarks for FER in VR settings. Our findings highlight the potential of fusing complementary modalities to enhance FER accuracy in VR settings, where conventional image-based methods are severely limited by the occlusion caused by Head-Mounted Displays (HMDs).
- Abstract(参考訳): 本研究では,顔表情認識(FER)のためのMeta Quest Pro Virtual Reality(VR)ヘッドセットを用いて取得した表情アクティベーション(FEA)をVR環境で活用する可能性について検討した。
EmojiHeroVR Database(EmoHeVRDB)を応用し,静的FERタスクに対して最大73.02%の精度を7つの感情カテゴリと比較した。
さらに、FEAと画像データをマルチモーダル手法に統合し、認識精度を大幅に向上させた。
中間核融合法は80.42%の精度を達成し、EmoHeVRDBの画像データでは69.84%のベースライン評価結果を大きく上回った。
EmoHeVRDBのユニークなFAAデータを一過性および多モード静的FERに利用し、VR設定におけるFERのための新しいベンチマークを確立した初めての研究である。
本研究は,従来の画像ベース手法がヘッドマウントディスプレイ(HMD)による閉塞によって著しく制限されるVR設定において,FER精度を高めるための相補的モダリティの融合の可能性を明らかにするものである。
関連論文リスト
- BrainMVP: Multi-modal Vision Pre-training for Brain Image Analysis using Multi-parametric MRI [11.569448567735435]
BrainMVPは、マルチパラメトリックMRIスキャンを用いた脳画像解析のためのマルチモーダルビジョン事前トレーニングフレームワークである。
クロスモーダル・コンストラクション(英語版)は、特徴ある脳画像の埋め込みと効率的なモーダル融合能力を学習するために研究されている。
ダウンストリームタスクの実験は、医学領域における最先端の事前訓練方法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T15:12:16Z) - EmojiHeroVR: A Study on Facial Expression Recognition under Partial Occlusion from Head-Mounted Displays [4.095418032380801]
EmoHeVRDB (EmojiHeroVR Database) には3,556個のラベル付き顔画像と1,778個の再現された感情が含まれている。
EmojiHeVRDBには、Meta Quest Pro VRヘッドセットを介してキャプチャされた63の表情のアクティベートに関するデータが含まれている。
ベストモデルはテストセットで69.84%の精度を達成した。
論文 参考訳(メタデータ) (2024-10-04T11:29:04Z) - EMHI: A Multimodal Egocentric Human Motion Dataset with HMD and Body-Worn IMUs [17.864281586189392]
ウェアラブルセンサを用いた人間中心のポーズ推定(HPE)はVR/ARアプリケーションに不可欠である。
ほとんどの手法は、エゴセントリック・ビュー・イメージまたはスパース慣性測定ユニット(IMU)信号にのみ依存する。
マルチモーダルなtextbfEgocentric human textbfMotion データセットである textbfHead-Mounted Display (HMD) と body-worn textbfIMU を提案する。
論文 参考訳(メタデータ) (2024-08-30T10:12:13Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Thelxinoë: Recognizing Human Emotions Using Pupillometry and Machine Learning [0.0]
本研究は,現実的かつ感情的に共鳴するタッチインタラクションのための複数のセンサデータを統合することで,VR体験の向上を目的とした,Thelxino"eフレームワークに大きく貢献する。
我々の発見は、没入的でインタラクティブなVR環境を開発するための新しい道を開き、バーチャルタッチ技術の将来の進歩への道を開いた。
論文 参考訳(メタデータ) (2024-03-27T21:14:17Z) - Deep Motion Masking for Secure, Usable, and Scalable Real-Time Anonymization of Virtual Reality Motion Data [49.68609500290361]
最近の研究では、ほぼすべてのVRアプリケーションで使われているモーショントラッキングの「テレメトリ」データが、指紋スキャンと同じくらいに識別可能であることが示されている。
本稿では、既知の防御対策を確実に回避できる最先端のVR識別モデルを提案する。
論文 参考訳(メタデータ) (2023-11-09T01:34:22Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Learning Diversified Feature Representations for Facial Expression
Recognition in the Wild [97.14064057840089]
本稿では,CNN層が抽出した顔表情認識アーキテクチャの特徴を多様化する機構を提案する。
AffectNet,FER+,RAF-DBの3つの顔表情認識実験の結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-17T19:25:28Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - End-to-End Zero-Shot HOI Detection via Vision and Language Knowledge
Distillation [86.41437210485932]
我々は、ゼロショットHOI検出を前進させ、同時に見えないHOIと見えないHOIの両方を検出することを目指している。
本稿では,視覚言語による知識蒸留によるエンドツーエンドのゼロショットHOI検出フレームワークを提案する。
本手法は, 従来のSOTAを8.92%, 全体の10.18%で上回っている。
論文 参考訳(メタデータ) (2022-04-01T07:27:19Z) - Facial Expression Recognition Under Partial Occlusion from Virtual
Reality Headsets based on Transfer Learning [0.0]
畳み込みニューラルネットワークに基づくアプローチは、顔認識タスクに適用可能であることが証明されたため、広く採用されている。
しかし、頭部に装着したVRヘッドセットを装着して顔を認識することは、顔の上半分が完全に隠されているため、難しい作業である。
既存のFERデータセットに適用可能なSamsung Gear VRヘッドセットによる閉塞をシミュレートする幾何学的モデルを提案する。
論文 参考訳(メタデータ) (2020-08-12T20:25:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。