論文の概要: Multimodal Group Emotion Recognition In-the-wild Using Privacy-Compliant
Features
- arxiv url: http://arxiv.org/abs/2312.05265v1
- Date: Wed, 6 Dec 2023 08:58:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 14:45:41.822425
- Title: Multimodal Group Emotion Recognition In-the-wild Using Privacy-Compliant
Features
- Title(参考訳): プライバシー対応機能を用いたマルチモーダルグループ感情認識
- Authors: Anderson Augusma (M-PSI, SVH), Dominique Vaufreydaz (M-PSI),
Fr\'ed\'erique Letu\'e (SVH)
- Abstract要約: グループレベルの感情認識は、社会ロボティクス、会話エージェント、e-coaching、学習分析など、多くの分野で有用である。
本稿では,EmotiW Challenge 2023の中で,プライバシに適合したグループレベルの感情認識について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores privacy-compliant group-level emotion recognition
''in-the-wild'' within the EmotiW Challenge 2023. Group-level emotion
recognition can be useful in many fields including social robotics,
conversational agents, e-coaching and learning analytics. This research imposes
itself using only global features avoiding individual ones, i.e. all features
that can be used to identify or track people in videos (facial landmarks, body
poses, audio diarization, etc.). The proposed multimodal model is composed of a
video and an audio branches with a cross-attention between modalities. The
video branch is based on a fine-tuned ViT architecture. The audio branch
extracts Mel-spectrograms and feed them through CNN blocks into a transformer
encoder. Our training paradigm includes a generated synthetic dataset to
increase the sensitivity of our model on facial expression within the image in
a data-driven way. The extensive experiments show the significance of our
methodology. Our privacy-compliant proposal performs fairly on the EmotiW
challenge, with 79.24% and 75.13% of accuracy respectively on validation and
test set for the best models. Noticeably, our findings highlight that it is
possible to reach this accuracy level with privacy-compliant features using
only 5 frames uniformly distributed on the video.
- Abstract(参考訳): 本稿では,EmotiW Challenge 2023の中で,プライバシに適合したグループレベルの感情認識について検討する。
グループレベルの感情認識は、社会ロボティクス、会話エージェント、e-coaching、学習分析など、多くの分野で有用である。
本研究は、ビデオ中の人物(顔のランドマーク、ボディポーズ、オーディオダイアリゼーションなど)を識別または追跡するために使用できるすべての特徴を、個々の特徴を避けるためのグローバルな機能のみを使用することを強制する。
提案するマルチモーダルモデルは,モダリティ間のクロスアテンションを有するビデオとオーディオブランチで構成されている。
ビデオブランチは、微調整されたViTアーキテクチャに基づいている。
オーディオブランチはメルスペクトルを抽出し、CNNブロックを介してトランスフォーマーエンコーダに供給する。
トレーニングパラダイムには、生成した合成データセットが含まれており、データ駆動方式で画像内の表情に対するモデルの感度を高める。
広範な実験は我々の方法論の意義を示している。
当社のプライバシに準拠した提案はemotiwの課題に対して,79.24%と75.13%の精度で,最良モデルのバリデーションとテストセット上で,それぞれ公平に実施しています。
注目すべきなのは,ビデオ上に均一に分散された5フレームのみを使用して,プライバシに準拠した機能によって,この精度レベルに到達することができることだ。
関連論文リスト
- A Multimodal Framework for Deepfake Detection [0.0]
AIを使って合成メディアを作るDeepfakesは、ビデオやオーディオを説得力を持って修正して、現実を正しく表現する。
我々の研究は、革新的なマルチモーダルアプローチを通じて、ディープフェイクの重要な問題に対処する。
枠組みは視覚的・聴覚的分析を併用し,精度は94%であった。
論文 参考訳(メタデータ) (2024-10-04T14:59:10Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - Affective Behaviour Analysis via Integrating Multi-Modal Knowledge [24.74463315135503]
ABAW(Affective Behavior Analysis in-wild)の第6回コンペティションでは、Aff-Wild2、Hum-Vidmimic2、C-EXPR-DBデータセットが使用されている。
本稿では,Valence-Arousal (VA) Estimation, Expression (EXPR) Recognition, Action Unit (AU) Detection, Compound Expression (CE) Recognition, Emotional Mimicry Intensity (EMI) Estimationの5つの競合トラックについて提案する。
論文 参考訳(メタデータ) (2024-03-16T06:26:43Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - NPF-200: A Multi-Modal Eye Fixation Dataset and Method for
Non-Photorealistic Videos [51.409547544747284]
NPF-200は、視線を固定した純粋にフォトリアリスティックでないビデオの大規模なマルチモーダルデータセットである。
私たちは一連の分析を行い、このタスクについてより深い洞察を得ます。
NPSNetと呼ばれる広帯域周波数対応マルチモーダル非フォトリアリスティックサリエンシ検出モデルを提案する。
論文 参考訳(メタデータ) (2023-08-23T14:25:22Z) - Mutilmodal Feature Extraction and Attention-based Fusion for Emotion
Estimation in Videos [16.28109151595872]
ABAW(Affective Behavior Analysis in the-wild)に関するCVPR 2023コンペティションについて紹介する。
我々は、音声、ポーズ、画像など、競合データセットから異なる長さのビデオから抽出したマルチモーダル特徴を利用した。
本システムでは,検証データセット上での0.361の性能を実現する。
論文 参考訳(メタデータ) (2023-03-18T14:08:06Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Audio-Visual Fusion Layers for Event Type Aware Video Recognition [86.22811405685681]
マルチタスク学習方式において,個別のイベント固有のレイヤによるマルチセンサ統合問題に対処する新しいモデルを提案する。
我々のネットワークは単一のラベルで表現されているが、与えられたビデオを表現するために、さらに真のマルチラベルを出力できる。
論文 参考訳(メタデータ) (2022-02-12T02:56:22Z) - Automated Video Labelling: Identifying Faces by Corroborative Evidence [79.44208317138784]
本稿では,複数のエビデンスソースと複数のモダリティを組み合わせることで,テレビ放送などのビデオアーカイブ内のすべての顔を自動的にラベル付けする手法を提案する。
本研究では,人物が有名であるか否かを画像検索エンジンを用いて判定する,新しい,シンプルな手法を提案する。
あまり有名でない人であっても、画像検索エンジンは、シーンやスピーチで命名された顔の正確なラベル付けに役立てることができる。
論文 参考訳(メタデータ) (2021-02-10T18:57:52Z) - Group-Level Emotion Recognition Using a Unimodal Privacy-Safe
Non-Individual Approach [0.0]
本稿は、Emotion Recognition in the Wild (EmotiW) Challenge 2020 1における、オーディオビデオグループ感情認識サブタスクに対する、プライバシー保護と非個人的提案について紹介する。
論文 参考訳(メタデータ) (2020-09-15T12:25:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。