論文の概要: Emotion recognition by fusing time synchronous and time asynchronous
representations
- arxiv url: http://arxiv.org/abs/2010.14102v2
- Date: Thu, 22 Jul 2021 11:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 11:40:55.439705
- Title: Emotion recognition by fusing time synchronous and time asynchronous
representations
- Title(参考訳): 時間同期表現と時間同期表現の融合による感情認識
- Authors: Wen Wu, Chao Zhang, Philip C. Woodland
- Abstract要約: マルチモーダル感情認識のための新しい2分岐ニューラルネットワークモデル構造を提案する。
時間同期ブランチ(TSB)と時間非同期ブランチ(TAB)で構成される。
2分岐構造は、すべての一般的なテスト設定を伴う4方向の分類において、最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 17.26466867595571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, a novel two-branch neural network model structure is proposed
for multimodal emotion recognition, which consists of a time synchronous branch
(TSB) and a time asynchronous branch (TAB). To capture correlations between
each word and its acoustic realisation, the TSB combines speech and text
modalities at each input window frame and then does pooling across time to form
a single embedding vector. The TAB, by contrast, provides cross-utterance
information by integrating sentence text embeddings from a number of context
utterances into another embedding vector. The final emotion classification uses
both the TSB and the TAB embeddings. Experimental results on the IEMOCAP
dataset demonstrate that the two-branch structure achieves state-of-the-art
results in 4-way classification with all common test setups. When using
automatic speech recognition (ASR) output instead of manually transcribed
reference text, it is shown that the cross-utterance information considerably
improves the robustness against ASR errors. Furthermore, by incorporating an
extra class for all the other emotions, the final 5-way classification system
with ASR hypotheses can be viewed as a prototype for more realistic emotion
recognition systems.
- Abstract(参考訳): 本稿では、時間同期分岐(TSB)と時間非同期分岐(TAB)からなるマルチモーダル感情認識のための新しい2分岐ニューラルネットワークモデル構造を提案する。
各単語とその音響的実現との相関を捉えるため、TSBは入力ウィンドウフレームごとに音声とテキストのモダリティを結合し、時間をかけてプールして単一の埋め込みベクトルを形成する。
一方、TABは、複数の文脈発話からの文テキスト埋め込みを別の埋め込みベクトルに統合することで、クロス発話情報を提供する。
最終感情分類はTSBとTABの埋め込みの両方を用いる。
IEMOCAPデータセットの実験結果から,2分岐構造は,すべての共通テスト設定を伴う4方向の分類において,最先端の結果が得られることが示された。
手動で書き起こした参照テキストの代わりに自動音声認識(ASR)出力を使用すると、クロス発話情報がASRエラーに対する堅牢性を大幅に向上することを示す。
さらに、他の全ての感情に余分なクラスを組み込むことで、asr仮説を用いた最終5方向分類システムはより現実的な感情認識システムのプロトタイプと見なすことができる。
関連論文リスト
- Timestamped Embedding-Matching Acoustic-to-Word CTC ASR [2.842794675894731]
組込み型単語レベル接続性時間分類(CTC)自動音声認識(ASR)の学習方法について述べる。
単語タイムスタンプは、テスト時に二次モデルや強制アライメントプロセスに頼ることなく、ASRが単語セグメンテーションと単語混乱ネットワークを出力することを可能にする。
論文 参考訳(メタデータ) (2023-06-20T11:53:43Z) - Speech-text based multi-modal training with bidirectional attention for
improved speech recognition [26.47071418582507]
ASRエンコーダ(ボット層)とテキストエンコーダ(テキストエンコーダ)をマルチモーダル学習法で共同学習するために,新しい双方向アテンション機構(BiAM)を提案する。
BiAMは特徴サンプリングレートの交換を促進することを目的としており、別の空間で測定すべきものに対する変換された特徴の品質を実現する。
Librispeech corpusの実験結果から、ペアデータ学習のみで最大6.15%のワードエラー率削減(WERR)を達成でき、また、より不適切なテキストデータを使用すると9.23%のWERRを実現することができる。
論文 参考訳(メタデータ) (2022-11-01T08:25:11Z) - SPACE-2: Tree-Structured Semi-Supervised Contrastive Pre-training for
Task-Oriented Dialog Understanding [68.94808536012371]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから対話表現を学習する,木構造付き事前学習会話モデルを提案する。
提案手法は,7つのデータセットと4つの一般的な対話理解タスクからなるDialoGLUEベンチマークにおいて,最新の結果が得られる。
論文 参考訳(メタデータ) (2022-09-14T13:42:50Z) - Leveraging Acoustic Contextual Representation by Audio-textual
Cross-modal Learning for Conversational ASR [25.75615870266786]
先行する音声から直接文脈表現を学習するための音声・テキスト・モーダル表現抽出器を提案する。
提案手法の有効性を複数のマンダリン会話コーパスで検証した。
論文 参考訳(メタデータ) (2022-07-03T13:32:24Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - DARER: Dual-task Temporal Relational Recurrent Reasoning Network for
Joint Dialog Sentiment Classification and Act Recognition [39.76268402567324]
共同ダイアログ感情分類(DSC)と行動認識(DAR)の課題は、ダイアログの各発話に対する感情ラベルと行動ラベルを同時に予測することである。
我々は,テキスト予測レベルのインタラクションを統合することで,明示的な依存関係をモデル化する新しいフレームワークを提唱した。
そこで本研究では,まず,文脈,話者,時間に敏感な発話表現を生成するDARERという新しいモデルを提案する。
論文 参考訳(メタデータ) (2022-03-08T05:19:18Z) - Extended Graph Temporal Classification for Multi-Speaker End-to-End ASR [77.82653227783447]
ニューラルネットワークによるラベル遷移とラベル遷移の両方をモデル化するための GTC の拡張を提案する。
例として,多話者音声認識タスクに拡張GTC(GTC-e)を用いる。
論文 参考訳(メタデータ) (2022-03-01T05:02:02Z) - Syntactic representation learning for neural network based TTS with
syntactic parse tree traversal [49.05471750563229]
本稿では,構文解析木に基づく構文表現学習手法を提案し,構文構造情報を自動的に活用する。
実験の結果,提案手法の有効性が示された。
複数の構文解析木を持つ文では、合成音声から韻律的差異が明確に認識される。
論文 参考訳(メタデータ) (2020-12-13T05:52:07Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。