論文の概要: Multi-Modal Emotion Recognition by Text, Speech and Video Using
Pretrained Transformers
- arxiv url: http://arxiv.org/abs/2402.07327v1
- Date: Sun, 11 Feb 2024 23:27:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 16:05:16.122088
- Title: Multi-Modal Emotion Recognition by Text, Speech and Video Using
Pretrained Transformers
- Title(参考訳): 事前学習トランスフォーマーを用いたテキスト・音声・ビデオによるマルチモーダル感情認識
- Authors: Minoo Shayaninasab, Bagher Babaali
- Abstract要約: 3つの入力モダリティ、すなわちテキスト、オーディオ(音声)、ビデオを使用してマルチモーダル特徴ベクトルを生成する。
これらのモダリティごとに特徴を生成するために、微調整付き事前学習トランスフォーマーモデルを用いる。
特徴ベクトルを結合して特徴レベルの融合とサポートベクトルマシンを用いた分類を組み合わせた最良のモデルは、75.42%の精度を達成する。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Due to the complex nature of human emotions and the diversity of emotion
representation methods in humans, emotion recognition is a challenging field.
In this research, three input modalities, namely text, audio (speech), and
video, are employed to generate multimodal feature vectors. For generating
features for each of these modalities, pre-trained Transformer models with
fine-tuning are utilized. In each modality, a Transformer model is used with
transfer learning to extract feature and emotional structure. These features
are then fused together, and emotion recognition is performed using a
classifier. To select an appropriate fusion method and classifier, various
feature-level and decision-level fusion techniques have been experimented with,
and ultimately, the best model, which combines feature-level fusion by
concatenating feature vectors and classification using a Support Vector Machine
on the IEMOCAP multimodal dataset, achieves an accuracy of 75.42%. Keywords:
Multimodal Emotion Recognition, IEMOCAP, Self-Supervised Learning, Transfer
Learning, Transformer.
- Abstract(参考訳): 人間の感情の複雑な性質と人間の感情表現方法の多様性のため、感情認識は難しい分野である。
本研究では,マルチモーダル特徴ベクトルを生成するために,テキスト,オーディオ(音声),ビデオの3つの入力モダリティを用いた。
これらのモダリティごとに特徴を生成するために、微調整付き事前学習トランスフォーマーモデルを用いる。
各モードにおいて、トランスフォーマーモデルは伝達学習に使われ、特徴と感情構造を抽出する。
これらの特徴は融合され、感情認識は分類器を用いて行われる。
適切な融合方法と分類器を選択するために、様々な機能レベルおよび決定レベルの融合技術を実験し、最終的にiemocap multimodalデータセット上のサポートベクターマシンを用いて特徴ベクトルと分類を結合して機能レベルの融合を結合した最善のモデルは75.42%の精度を達成する。
キーワード:マルチモーダル感情認識、iemocap、自己教師付き学習、転送学習、トランスフォーマー。
関連論文リスト
- AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - Multimodal Prompt Transformer with Hybrid Contrastive Learning for
Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。
表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。
特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。
MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文 参考訳(メタデータ) (2023-10-04T13:54:46Z) - HCAM -- Hierarchical Cross Attention Model for Multi-modal Emotion
Recognition [41.837538440839815]
マルチモーダル感情認識のための階層的クロスアテンションモデル(HCAM)を提案する。
モデルへの入力は、学習可能なwav2vecアプローチによって処理される2つのモーダルデータと、変換器(BERT)モデルからの双方向エンコーダ表現を用いて表現されるテキストデータからなる。
文脈知識と2つのモードにまたがる情報を組み込むため、音声とテキストの埋め込みはコアテンション層を用いて結合される。
論文 参考訳(メタデータ) (2023-04-14T03:25:00Z) - Multilevel Transformer For Multimodal Emotion Recognition [6.0149102420697025]
本稿では,微粒化表現と事前学習した発話レベル表現を組み合わせた新しい多粒度フレームワークを提案する。
本研究では,Transformer TTSにインスパイアされたマルチレベルトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-10-26T10:31:24Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Multimodal Emotion Recognition with High-level Speech and Text Features [8.141157362639182]
本稿では,wav2vec 2.0音声特徴量に対する感情認識を実現するために,新しいクロス表現音声モデルを提案する。
また、Transformerベースのモデルを用いて抽出したテキスト特徴から感情を認識するために、CNNベースのモデルをトレーニングする。
本手法は,4クラス分類問題においてIEMOCAPデータセットを用いて評価する。
論文 参考訳(メタデータ) (2021-09-29T07:08:40Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。