論文の概要: A Pre-trained Audio-Visual Transformer for Emotion Recognition
- arxiv url: http://arxiv.org/abs/2201.09165v1
- Date: Sun, 23 Jan 2022 03:09:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-28 02:49:23.129934
- Title: A Pre-trained Audio-Visual Transformer for Emotion Recognition
- Title(参考訳): 感情認識のための事前学習型音声変換器
- Authors: Minh Tran, Mohammad Soleymani
- Abstract要約: 4000人近い有名人から500k以上の発話を訓練した事前学習型音声-視覚変換器を導入する。
このモデルは、人間の顔と聴覚行動の相互作用から有用な情報を取り込み、抽出することを目的としている。
- 参考スコア(独自算出の注目度): 5.321281630718918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a pretrained audio-visual Transformer trained on
more than 500k utterances from nearly 4000 celebrities from the VoxCeleb2
dataset for human behavior understanding. The model aims to capture and extract
useful information from the interactions between human facial and auditory
behaviors, with application in emotion recognition. We evaluate the model
performance on two datasets, namely CREMAD-D (emotion classification) and
MSP-IMPROV (continuous emotion regression). Experimental results show that
fine-tuning the pre-trained model helps improving emotion classification
accuracy by 5-7% and Concordance Correlation Coefficients (CCC) in continuous
emotion recognition by 0.03-0.09 compared to the same model trained from
scratch. We also demonstrate the robustness of finetuning the pre-trained model
in a low-resource setting. With only 10% of the original training set provided,
fine-tuning the pre-trained model can lead to at least 10% better emotion
recognition accuracy and a CCC score improvement by at least 0.1 for continuous
emotion recognition.
- Abstract(参考訳): 本稿では,VoxCeleb2データセットから約4000人の有名人から500k以上の発話をトレーニングした事前学習型音声-視覚変換器を提案する。
このモデルは、人間の顔と聴覚行動の相互作用から有用な情報を抽出し、感情認識に適用することを目的としている。
本研究では,2つのデータセット,すなわち CREMAD-D (感情分類) と MSP-IMPROV (連続感情回帰) のモデル性能を評価する。
実験の結果, 事前学習モデルの微調整により, 連続感情認識における感情分類精度が5~7%向上し, 一致相関係数 (ccc) が0.03~0.09向上した。
また,低リソース環境下での事前学習モデルの微調整の堅牢性を示す。
トレーニングセットの10%しか提供されていないため、トレーニング済みモデルの微調整により、少なくとも10%の感情認識精度が向上し、CCCスコアが0.1以上向上する。
関連論文リスト
- Personalization of Affective Models to Enable Neuropsychiatric Digital
Precision Health Interventions: A Feasibility Study [0.820591242098274]
自閉症スペクトラム障害(ASD)に対するモバイルデジタル治療は、しばしば感情認識と誘発を標的としている。
本稿では,モデルパーソナライズの可能性を探り,一人ひとりの感情認識モデルを訓練する。
一連の感情を喚起する被験者の映像データセットであるEmognitionデータセットについて実験を行った。
論文 参考訳(メタデータ) (2023-09-21T07:16:50Z) - Self-Supervised Learning for Audio-Based Emotion Recognition [1.7598252755538808]
自己教師付き学習は、教師付きラベルの不足にもかかわらず学習できる方法のファミリーである。
我々は,CMU-MOSEIの音響モダリティからの感情の分類に自己教師付き学習事前学習を適用した。
自己教師型学習は、すべてのメトリクスにわたるモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-07-23T14:40:50Z) - Computer Vision Estimation of Emotion Reaction Intensity in the Wild [1.5481864635049696]
本稿では,新たに導入された感情反応強度(ERI)推定課題について述べる。
視覚領域で訓練された4つのディープニューラルネットワークと、感情反応強度を予測するために視覚的特徴と音声的特徴の両方で訓練されたマルチモーダルモデルを開発した。
論文 参考訳(メタデータ) (2023-03-19T19:09:41Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Speech Emotion: Investigating Model Representations, Multi-Task Learning
and Knowledge Distillation [6.382013662443799]
音声信号から次元感情を推定することは困難である。
事前学習した音響モデルにより、音声の価値推定を改善することができることを示す。
我々は,現在最先端の「テキストフリー」音響のみの次元感情推定について報告する。
論文 参考訳(メタデータ) (2022-07-02T17:34:44Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Recognizing More Emotions with Less Data Using Self-supervised Transfer
Learning [0.0]
本稿では,音声認識のための新しい伝達学習手法を提案する。
感情のクラス毎の125のサンプルでは、8倍のデータでトレーニングされた強いベースラインよりも高い精度を達成できたのです。
論文 参考訳(メタデータ) (2020-11-11T06:18:31Z) - Continuous Emotion Recognition via Deep Convolutional Autoencoder and
Support Vector Regressor [70.2226417364135]
マシンはユーザの感情状態を高い精度で認識できることが不可欠である。
ディープニューラルネットワークは感情を認識する上で大きな成功を収めている。
表情認識に基づく連続的感情認識のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-01-31T17:47:16Z) - Facial Feedback for Reinforcement Learning: A Case Study and Offline
Analysis Using the TAMER Framework [51.237191651923666]
訓練者の表情からエージェント学習の可能性について,評価フィードバックとして解釈することで検討した。
設計したCNN-RNNモデルを用いて,学習者に対して表情とコンペティションの使用を指示することで,肯定的および否定的なフィードバックを推定する精度を向上させることができることを示す。
シミュレーション実験の結果,表情に基づく予測フィードバックのみから学習できることが示唆された。
論文 参考訳(メタデータ) (2020-01-23T17:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。