論文の概要: HiCMAE: Hierarchical Contrastive Masked Autoencoder for Self-Supervised Audio-Visual Emotion Recognition
- arxiv url: http://arxiv.org/abs/2401.05698v2
- Date: Mon, 1 Apr 2024 07:19:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 09:10:18.588790
- Title: HiCMAE: Hierarchical Contrastive Masked Autoencoder for Self-Supervised Audio-Visual Emotion Recognition
- Title(参考訳): HiCMAE: 自己監督型音声・視覚感情認識のための階層型コントラストマスクオートエンコーダ
- Authors: Licai Sun, Zheng Lian, Bin Liu, Jianhua Tao,
- Abstract要約: 自己教師型学習の最近の進歩に触発されて,階層型コントラスト型マスケドオートエンコーダ(HiCMAE)を提案する。
HiCMAEは、大規模なセルフ教師付き事前トレーニングを、ラベルのない膨大なオーディオ視覚データに活用する、新しいセルフ教師付きフレームワークである。
本手法は,最先端の教師付き・自己監督型音声視覚法よりも優れる。
- 参考スコア(独自算出の注目度): 38.924509275928884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-Visual Emotion Recognition (AVER) has garnered increasing attention in recent years for its critical role in creating emotion-ware intelligent machines. Previous efforts in this area are dominated by the supervised learning paradigm. Despite significant progress, supervised learning is meeting its bottleneck due to the longstanding data scarcity issue in AVER. Motivated by recent advances in self-supervised learning, we propose Hierarchical Contrastive Masked Autoencoder (HiCMAE), a novel self-supervised framework that leverages large-scale self-supervised pre-training on vast unlabeled audio-visual data to promote the advancement of AVER. Following prior arts in self-supervised audio-visual representation learning, HiCMAE adopts two primary forms of self-supervision for pre-training, namely masked data modeling and contrastive learning. Unlike them which focus exclusively on top-layer representations while neglecting explicit guidance of intermediate layers, HiCMAE develops a three-pronged strategy to foster hierarchical audio-visual feature learning and improve the overall quality of learned representations. To verify the effectiveness of HiCMAE, we conduct extensive experiments on 9 datasets covering both categorical and dimensional AVER tasks. Experimental results show that our method significantly outperforms state-of-the-art supervised and self-supervised audio-visual methods, which indicates that HiCMAE is a powerful audio-visual emotion representation learner. Codes and models will be publicly available at https://github.com/sunlicai/HiCMAE.
- Abstract(参考訳): AVER(Audio-Visual Emotion Recognition)は、感情を意識する知的な機械を作る上で重要な役割を担っているため、近年注目を集めている。
この領域におけるこれまでの取り組みは、教師付き学習パラダイムによって支配されている。
大幅な進歩にもかかわらず、教師あり学習は、AVERの長年のデータ不足の問題のためにボトルネックを満たしている。
近年の自己教師型学習の進歩に触発された階層型コントラスト・マスケッド・オートエンコーダ(HiCMAE)を提案する。
自己教師型音声視覚表現学習における先行技術に続いて、HiCMAEは事前学習のための2つの主要なセルフスーパービジョン、すなわちマスク付きデータモデリングとコントラスト学習を採用した。
中間層の明示的なガイダンスを無視しながらトップ層表現のみに焦点を絞ったものとは異なり、HiCMAEは階層的な音声・視覚的特徴学習を育成し、学習された表現の全体的な品質を改善するための3つの戦略を開発する。
HiCMAEの有効性を検証するため、分類的タスクと次元的タスクの両方をカバーする9つのデータセットに対して広範な実験を行った。
実験結果から,HCMAEは音声・視覚的感情表現学習において,最先端の教師付き・自己教師型音声・視覚的手法よりも優れていたことが示唆された。
コードとモデルはhttps://github.com/sunlicai/HiCMAE.comで公開される。
関連論文リスト
- SVFAP: Self-supervised Video Facial Affect Perceiver [42.16505961654868]
SVFAP(Self-supervised Video Facial Affect Perceiver)
本稿では,自己監督型映像表情知覚器(SVFAP)を提案する。
提案手法の有効性を検証するため, 動的表情認識, 次元感情認識, パーソナリティ認識を含む3つの下流タスクにまたがる9つのデータセットを用いて実験を行った。
総合的な結果から,SVFAPは大規模自己教師付き事前学習を通じて強力な感情関連表現を学習できることが示され,すべてのデータセットにおいて従来の最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-12-31T07:44:05Z) - Unsupervised Representations Improve Supervised Learning in Speech
Emotion Recognition [1.3812010983144798]
本研究では,小さな音声セグメントからの感情認識のための自己教師付き特徴抽出と教師付き分類を統合した革新的なアプローチを提案する。
事前処理では,Wav2Vecモデルに基づく自己教師付き特徴抽出器を用いて音声データから音響特徴を抽出した。
次に、前処理ステップの出力特徴マップを、カスタム設計の畳み込みニューラルネットワーク(CNN)ベースのモデルに入力し、感情分類を行う。
論文 参考訳(メタデータ) (2023-09-22T08:54:06Z) - Self-Supervised Learning for Audio-Based Emotion Recognition [1.7598252755538808]
自己教師付き学習は、教師付きラベルの不足にもかかわらず学習できる方法のファミリーである。
我々は,CMU-MOSEIの音響モダリティからの感情の分類に自己教師付き学習事前学習を適用した。
自己教師型学習は、すべてのメトリクスにわたるモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-07-23T14:40:50Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z) - Weakly-supervised HOI Detection via Prior-guided Bi-level Representation
Learning [66.00600682711995]
ヒューマンオブジェクトインタラクション(HOI)検出は、人間中心のシーン理解において重要な役割を担い、多くの視覚タスクの基本的なビルディングブロックとして機能する。
HOI検出のための汎用的でスケーラブルな戦略の1つは、画像レベルのアノテーションからのみ学習する弱い監視を使用することである。
これは、不明瞭な人間と物体の関連、HOIを検出する大きな探索空間、非常にノイズの多い訓練信号によって本質的に困難である。
画像レベルとHOIインスタンスレベルの両方で事前の知識を組み込むことができるCLIP誘導HOI表現を開発し、不正な人間とオブジェクトの関連性を実証するために自己学習機構を採用する。
論文 参考訳(メタデータ) (2023-03-02T14:41:31Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - MS$^2$L: Multi-Task Self-Supervised Learning for Skeleton Based Action
Recognition [36.74293548921099]
動作予測,ジグソーパズル認識,コントラスト学習を統合し,異なる側面から骨格の特徴を学習する。
NW-UCLA, NTU RGB+D, PKUMMDデータセットを用いた実験は, 行動認識における顕著な性能を示した。
論文 参考訳(メタデータ) (2020-10-12T11:09:44Z) - Does Visual Self-Supervision Improve Learning of Speech Representations
for Emotion Recognition? [63.564385139097624]
本研究は,音声表現の学習を指導するために,顔再構成による視覚的自己監督について検討する。
提案した視覚的・音声的自己監督のマルチタスクの組み合わせは,よりリッチな特徴を学習する上で有益であることを示す。
学習した音声表現を、離散的感情認識、連続的感情認識、自動音声認識のために評価する。
論文 参考訳(メタデータ) (2020-05-04T11:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。