論文の概要: A Simple Attention-Based Mechanism for Bimodal Emotion Classification
- arxiv url: http://arxiv.org/abs/2407.00134v1
- Date: Fri, 28 Jun 2024 10:43:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 06:10:29.151477
- Title: A Simple Attention-Based Mechanism for Bimodal Emotion Classification
- Title(参考訳): バイモーダル感情分類のための簡単な注意に基づくメカニズム
- Authors: Mazen Elabd, Sardar Jaf,
- Abstract要約: 本稿では,感情分類のためのテキストおよび音声データに基づいて,注意機構を訓練し,テストしたバイモーダル深層学習アーキテクチャを提案する。
我々の発見は、深層学習に基づくアーキテクチャは、異なるタイプのデータ(テキストと音声)に基づいて訓練され、テキストと音声だけで訓練されたアーキテクチャよりも優れていたことを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Big data contain rich information for machine learning algorithms to utilize when learning important features during classification tasks. Human beings express their emotion using certain words, speech (tone, pitch, speed) or facial expression. Artificial Intelligence approach to emotion classification are largely based on learning from textual information. However, public datasets containing text and speech data provide sufficient resources to train machine learning algorithms for the tack of emotion classification. In this paper, we present novel bimodal deep learning-based architectures enhanced with attention mechanism trained and tested on text and speech data for emotion classification. We report details of different deep learning based architectures and show the performance of each architecture including rigorous error analyses. Our finding suggests that deep learning based architectures trained on different types of data (text and speech) outperform architectures trained only on text or speech. Our proposed attention-based bimodal architecture outperforms several state-of-the-art systems in emotion classification.
- Abstract(参考訳): ビッグデータには、機械学習アルゴリズムが、分類タスク中に重要な特徴を学習する際に利用する、豊富な情報が含まれている。
人間は特定の言葉(声、ピッチ、スピード)、表情を使って感情を表現する。
感情分類への人工知能のアプローチは、主にテキスト情報からの学習に基づいている。
しかし、テキストと音声データを含む公開データセットは、感情分類のタックのために機械学習アルゴリズムを訓練するのに十分なリソースを提供する。
本稿では,感情分類のためのテキストデータと音声データに基づいて,注意機構を訓練し,テストしたバイモーダル深層学習に基づく新しいアーキテクチャを提案する。
深層学習に基づくアーキテクチャの詳細を報告し、厳密なエラー解析を含む各アーキテクチャの性能を示す。
我々の発見は、深層学習に基づくアーキテクチャは、異なるタイプのデータ(テキストと音声)に基づいて訓練され、テキストと音声だけで訓練されたアーキテクチャよりも優れていたことを示唆している。
注意に基づくバイモーダルアーキテクチャは感情分類の最先端システムよりも優れています。
関連論文リスト
- VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Probing the Information Encoded in Neural-based Acoustic Models of
Automatic Speech Recognition Systems [7.207019635697126]
本稿では,自動音声認識音響モデル(AM)における情報の位置と位置を決定することを目的とする。
話者検証,音響環境分類,性別分類,テンポ歪検出システム,音声感情・感情識別について実験を行った。
分析の結果、ニューラルベースAMは驚くほど音素認識と無関係に思える異種情報を持っていることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:43:53Z) - Speech and Text-Based Emotion Recognizer [0.9168634432094885]
我々は、音声感情認識のための公開データセットからバランスの取れたコーパスを構築する。
最良システムはマルチモーダル音声とテキストベースモデルであり,UA(Unweighed Accuracy)+WA(Weighed Accuracy)を119.66のベースラインアルゴリズムと比較して157.57の性能を提供する。
論文 参考訳(メタデータ) (2023-12-10T05:17:39Z) - Text Classification: A Perspective of Deep Learning Methods [0.0679877553227375]
本稿では,テキスト分類作業に必要な重要なステップを含む,深層学習に基づくテキスト分類アルゴリズムを提案する。
論文の最後には、異なる深層学習テキスト分類法を比較し、要約する。
論文 参考訳(メタデータ) (2023-09-24T21:49:51Z) - Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on
Data-Driven Deep Learning [70.30713251031052]
本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。
実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
論文 参考訳(メタデータ) (2022-06-15T01:25:32Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - data2vec: A General Framework for Self-supervised Learning in Speech,
Vision and Language [85.9019051663368]
data2vecは、音声、NLP、コンピュータビジョンのいずれかに同じ学習方法を使用するフレームワークである。
中心となる考え方は、自己蒸留装置における入力のマスキングビューに基づいて、完全な入力データの潜在表現を予測することである。
音声認識、画像分類、自然言語理解に関する主要なベンチマークの実験は、新しい技術や競争性能の状態を実証している。
論文 参考訳(メタデータ) (2022-02-07T22:52:11Z) - Multimodal Emotion Recognition with High-level Speech and Text Features [8.141157362639182]
本稿では,wav2vec 2.0音声特徴量に対する感情認識を実現するために,新しいクロス表現音声モデルを提案する。
また、Transformerベースのモデルを用いて抽出したテキスト特徴から感情を認識するために、CNNベースのモデルをトレーニングする。
本手法は,4クラス分類問題においてIEMOCAPデータセットを用いて評価する。
論文 参考訳(メタデータ) (2021-09-29T07:08:40Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Deep Learning Approach for Enhanced Cyber Threat Indicators in Twitter
Stream [3.7354197654171797]
本研究は、ツイートデータ分析のためのディープラーニングに基づくアプローチを提案する。
ツイートを数値表現に変換するには、様々なテキスト表現を用いる。
比較分析には古典的機械学習アルゴリズムを用いた古典的テキスト表現法を用いる。
論文 参考訳(メタデータ) (2020-03-31T00:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。