論文の概要: Self-Supervised learning with cross-modal transformers for emotion
recognition
- arxiv url: http://arxiv.org/abs/2011.10652v1
- Date: Fri, 20 Nov 2020 21:38:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 05:14:21.165987
- Title: Self-Supervised learning with cross-modal transformers for emotion
recognition
- Title(参考訳): 感情認識のためのクロスモーダルトランスフォーマーによる自己教師あり学習
- Authors: Aparna Khare, Srinivas Parthasarathy, Shiva Sundaram
- Abstract要約: 自己教師型学習は、音声や自然言語のようなドメインでラベル付きデータセットが限定されたタスクの改善を示している。
本研究では,マルチモーダルアプリケーションに自己指導型トレーニングを拡張する。
- 参考スコア(独自算出の注目度): 20.973999078271483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotion recognition is a challenging task due to limited availability of
in-the-wild labeled datasets. Self-supervised learning has shown improvements
on tasks with limited labeled datasets in domains like speech and natural
language. Models such as BERT learn to incorporate context in word embeddings,
which translates to improved performance in downstream tasks like question
answering. In this work, we extend self-supervised training to multi-modal
applications. We learn multi-modal representations using a transformer trained
on the masked language modeling task with audio, visual and text features. This
model is fine-tuned on the downstream task of emotion recognition. Our results
on the CMU-MOSEI dataset show that this pre-training technique can improve the
emotion recognition performance by up to 3% compared to the baseline.
- Abstract(参考訳): 内蔵ラベル付きデータセットが限られているため、感情認識は難しいタスクである。
自己教師型学習は、音声や自然言語のようなドメインのラベル付きデータセットでタスクを改善する。
BERTのようなモデルは、文脈を単語の埋め込みに取り入れることを学ぶ。
本研究では,マルチモーダルアプリケーションに自己指導型トレーニングを拡張する。
マスク言語モデリングタスクでトレーニングされたトランスフォーマティブを使用して,音声,視覚,テキスト機能を備えたマルチモーダル表現を学習する。
このモデルは、感情認識の下流タスクに微調整される。
cmu-moseiデータセットを用いた結果から,このプレトレーニング手法は,ベースラインと比較して感情認識性能を最大3%向上できることがわかった。
関連論文リスト
- Keypoint Action Tokens Enable In-Context Imitation Learning in Robotics [11.88216611522207]
市販のテキストベースのトランスフォーマーは、追加の訓練を伴わずに、数発のインコンテクスト・イン・コンテクスト・ビジュアル・模倣学習を行うことができることを示す。
テキストプリトレーニングされたトランスフォーマーが取り込み、生成できるトークンのシーケンスに視覚的観察を変換することで、これを実現する。
これらのトランスフォーマーは, 言語のみに基づいて訓練されているにもかかわらず, トークン化された視覚的キーポイントの観察を行動軌跡に翻訳することに優れていた。
論文 参考訳(メタデータ) (2024-03-28T17:04:00Z) - Boosting Continuous Emotion Recognition with Self-Pretraining using Masked Autoencoders, Temporal Convolutional Networks, and Transformers [3.951847822557829]
本研究では,Valence-Arousal (VA) Estimation Challenge, Expression (Expr) Classification Challenge, Action Unit (AU) Detection Challengeに取り組む。
本研究は,継続的な感情認識を改善するための新しいアプローチを提唱する。
我々は、顔データセット上でMasked Autoencoders(MAE)を事前トレーニングし、その後、式(Expr)ラベルを付加したaff-wild2データセットを微調整することで、これを実現する。
論文 参考訳(メタデータ) (2024-03-18T03:28:01Z) - EVE: Efficient Vision-Language Pre-training with Masked Prediction and
Modality-Aware MoE [66.48689706116808]
効率的なビジョン・ランガグ(Efficient Vision-languagE)は、1つの統合された事前訓練タスクによってのみ事前訓練された1つの統合マルチモーダルトランスである。
Eveは、Modality-aware sparse Mixture-of-Expertsと統合された共有トランスフォーマーネットワーク内の視覚と言語をエンコードする。
Eveは、視覚的質問応答、視覚的推論、画像テキスト検索など、様々な視覚言語下流タスクにおける最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-08-23T07:36:30Z) - Versatile audio-visual learning for emotion recognition [28.26077129002198]
本研究では,非モーダル・マルチモーダルシステムを扱うための多目的音声視覚学習フレームワークを提案する。
我々は,この効果的な表現学習を,音声-視覚的共有層,共有層上の残差接続,および非モーダル再構成タスクで実現した。
特に、VAVLは、MSP-IMPROVコーパスの感情予測タスクにおいて、新しい最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-05-12T03:13:37Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Multi-modal embeddings using multi-task learning for emotion recognition [20.973999078271483]
word2vec、GloVe、ELMoといった一般的な埋め込みは、自然言語タスクで多くの成功を示している。
自然言語理解から、機械学習タスクに音声、視覚、テキスト情報を使用するマルチモーダルアーキテクチャまで、作業を拡張します。
論文 参考訳(メタデータ) (2020-09-10T17:33:16Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。