論文の概要: CTL-MTNet: A Novel CapsNet and Transfer Learning-Based Mixed Task Net
for the Single-Corpus and Cross-Corpus Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2207.10644v1
- Date: Mon, 18 Jul 2022 09:09:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 12:16:51.963518
- Title: CTL-MTNet: A Novel CapsNet and Transfer Learning-Based Mixed Task Net
for the Single-Corpus and Cross-Corpus Speech Emotion Recognition
- Title(参考訳): CTL-MTNet:シングルコーパス・クロスコーパス音声認識のための新しいCapsNetとTransfer Learning-based Mixed Task Net
- Authors: Xin-Cheng Wen, Jia-Xin Ye, Yan Luo, Yong Xu, Xuan-Ze Wang, Chang-Li Wu
and Kun-Hong Liu
- Abstract要約: 音声感情認識(SER)は、人間とコンピュータの相互作用の研究の焦点となっている。
この課題に対処するために、シングルコーパスとクロスコーパスSERタスクを同時に扱うために、Capsule Network(CapsNet)とTransfer LearningベースのMixed Task Net(CTLMTNet)が提案されている。
その結果,CTL-MTNetは両タスクとも,複数の最先端手法と比較して,全てのケースで優れた性能を示した。
- 参考スコア(独自算出の注目度): 15.098532236157556
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speech Emotion Recognition (SER) has become a growing focus of research in
human-computer interaction. An essential challenge in SER is to extract common
attributes from different speakers or languages, especially when a specific
source corpus has to be trained to recognize the unknown data coming from
another speech corpus. To address this challenge, a Capsule Network (CapsNet)
and Transfer Learning based Mixed Task Net (CTLMTNet) are proposed to deal with
both the singlecorpus and cross-corpus SER tasks simultaneously in this paper.
For the single-corpus task, the combination of Convolution-Pooling and
Attention CapsNet module CPAC) is designed by embedding the self-attention
mechanism to the CapsNet, guiding the module to focus on the important features
that can be fed into different capsules. The extracted high-level features by
CPAC provide sufficient discriminative ability. Furthermore, to handle the
cross-corpus task, CTL-MTNet employs a Corpus Adaptation Adversarial Module
(CAAM) by combining CPAC with Margin Disparity Discrepancy (MDD), which can
learn the domain-invariant emotion representations through extracting the
strong emotion commonness. Experiments including ablation studies and
visualizations on both singleand cross-corpus tasks using four well-known SER
datasets in different languages are conducted for performance evaluation and
comparison. The results indicate that in both tasks the CTL-MTNet showed better
performance in all cases compared to a number of state-of-the-art methods. The
source code and the supplementary materials are available at:
https://github.com/MLDMXM2017/CTLMTNet
- Abstract(参考訳): 音声感情認識(SER)は人間とコンピュータの相互作用の研究の焦点となっている。
serの本質的な課題は、異なる話者または言語から共通の属性を抽出することである。特に、特定のソースコーパスが他の音声コーパスから来る未知のデータを認識するように訓練される必要がある場合である。
この課題に対処するために,シングルコーパスとクロスコーパスSERタスクを同時に扱うために,Capsule Network(CapsNet)とTransfer LearningベースのMixed Task Net(CTLMTNet)を提案する。
シングルコーパスタスクでは、Convolution-PoolingとAtention CapsNetモジュール(CPAC)の組み合わせは、CapsNetに自己保持メカニズムを組み込んで、異なるカプセルに供給できる重要な機能に集中するようにモジュールを誘導することによって設計されている。
CPACによって抽出された高次特徴は十分な識別能力を与える。
さらに、CTL-MTNetでは、CPACとMargin Disparity Discrepancy(MDD)を組み合わせたコーパス適応適応適応モジュール(CAAM)を用いて、強い感情の共通性を抽出することで、ドメイン不変の感情表現を学習する。
異なる言語でよく知られた4つのSERデータセットを用いて、単体およびクロスコーパスタスクのアブレーション研究と可視化を含む実験を行い、性能評価と比較を行った。
その結果,CTL-MTNetは両タスクとも,複数の最先端手法と比較して,全てのケースで優れた性能を示した。
ソースコードと追加資料は、https://github.com/MLDMXM2017/CTLMTNetで入手できる。
関連論文リスト
- Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - S$^3$M-Net: Joint Learning of Semantic Segmentation and Stereo Matching
for Autonomous Driving [40.305452898732774]
S$3$M-Netはセマンティックセグメンテーションとステレオマッチングを同時に行うために開発された新しい共同学習フレームワークである。
S$3$M-Netは、両方のタスク間でRGBイメージから抽出された特徴を共有し、全体的なシーン理解能力が改善された。
論文 参考訳(メタデータ) (2024-01-21T06:47:33Z) - Masked Cross-image Encoding for Few-shot Segmentation [16.445813548503708]
Few-shot segmentation (FSS) は、注釈付き画像の限られた数だけを用いて、未確認クラスのピクセルワイズラベルを推測することを目的とした、密度の高い予測タスクである。
本研究では,オブジェクトの詳細を記述した共通視覚特性をキャプチャし,特徴の相互作用を高める双方向画像間の依存関係を学習する,Masked Cross-Image MCEという共同学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T05:36:39Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Semi-Supervised Cross-Modal Salient Object Detection with U-Structure
Networks [18.12933868289846]
言語情報を視覚に基づくU-Structureネットワークに組み込むことにより,適切な物体検出作業を実現する。
本稿では,視覚的特徴と言語的特徴を組み合わせるために,効率的なクロスモーダル自己認識(eCMSA)と呼ばれる新しいモジュールを提案する。
ラベル付けの負担を軽減するため,画像キャプションモデルをトレーニングし,半教師付き学習手法を用いた。
論文 参考訳(メタデータ) (2022-08-08T18:39:37Z) - Learn-to-Decompose: Cascaded Decomposition Network for Cross-Domain
Few-Shot Facial Expression Recognition [60.51225419301642]
本稿では,複合表情認識のための新しいカスケード分解ネットワーク(CDNet)を提案する。
基本的な表現データセット上で同様のタスクをトレーニングすることで、CDNetは、目に見えない複合表現を容易に識別できる学習と分解の能力を学ぶ。
論文 参考訳(メタデータ) (2022-07-16T16:10:28Z) - CI-Net: Contextual Information for Joint Semantic Segmentation and Depth
Estimation [2.8785764686013837]
本稿では,その問題を解決するために,文脈情報(CI-Net)を注入したネットワークを提案する。
セマンティックラベルの監督により、ネットワークにはコンテキスト情報が埋め込まれており、シーンをよりよく理解することができる。
提案したCI-NetをNYU-Depth-v2およびSUN-RGBDデータセット上で評価する。
論文 参考訳(メタデータ) (2021-07-29T07:58:25Z) - CTNet: Context-based Tandem Network for Semantic Segmentation [77.4337867789772]
本研究では,空間コンテキスト情報とチャネルコンテキスト情報とを対話的に探索し,新しいコンテキストベースタンデムネットワーク(CTNet)を提案する。
セマンティックセグメンテーションのための学習表現の性能をさらに向上するため、2つのコンテキストモジュールの結果を適応的に統合する。
論文 参考訳(メタデータ) (2021-04-20T07:33:11Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。