論文の概要: EmoNet: A Transfer Learning Framework for Multi-Corpus Speech Emotion
Recognition
- arxiv url: http://arxiv.org/abs/2103.08310v1
- Date: Wed, 10 Mar 2021 19:12:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 00:59:27.101417
- Title: EmoNet: A Transfer Learning Framework for Multi-Corpus Speech Emotion
Recognition
- Title(参考訳): emonet: 多言語音声感情認識のためのトランスファー学習フレームワーク
- Authors: Maurice Gerczuk and Shahin Amiriparian and Sandra Ottl and Bj\"orn
Schuller
- Abstract要約: 感情的な音声データの大規模なコーパス、EmoSetは、既存のSERコーポラの数から組み立てられます。
コーパスは、マルチコーパス音声の感情認識のための新しいフレームワーク、すなわちEmoNetを作成するために使用される。
- 参考スコア(独自算出の注目度): 7.167550590287387
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this manuscript, the topic of multi-corpus Speech Emotion Recognition
(SER) is approached from a deep transfer learning perspective. A large corpus
of emotional speech data, EmoSet, is assembled from a number of existing SER
corpora. In total, EmoSet contains 84181 audio recordings from 26 SER corpora
with a total duration of over 65 hours. The corpus is then utilised to create a
novel framework for multi-corpus speech emotion recognition, namely EmoNet. A
combination of a deep ResNet architecture and residual adapters is transferred
from the field of multi-domain visual recognition to multi-corpus SER on
EmoSet. Compared against two suitable baselines and more traditional training
and transfer settings for the ResNet, the residual adapter approach enables
parameter efficient training of a multi-domain SER model on all 26 corpora. A
shared model with only $3.5$ times the number of parameters of a model trained
on a single database leads to increased performance for 21 of the 26 corpora in
EmoSet. Measured by McNemar's test, these improvements are further significant
for ten datasets at $p<0.05$ while there are just two corpora that see only
significant decreases across the residual adapter transfer experiments.
Finally, we make our EmoNet framework publicly available for users and
developers at https://github.com/EIHW/EmoNet. EmoNet provides an extensive
command line interface which is comprehensively documented and can be used in a
variety of multi-corpus transfer learning settings.
- Abstract(参考訳): 本稿では,多体音声感情認識(SER)の話題について,深層移動学習の観点から考察する。
感情音声データの大規模なコーパスであるエモセットは、既存の多数のサーコーパスから組み立てられる。
EmoSetには、26のSERコーパスから84181のオーディオ録音が含まれており、合計65時間を超える。
コーパスを使用して、マルチコーパス音声感情認識のための新しいフレームワーク、すなわちEmoNetを作成する。
ディープresnetアーキテクチャと残差アダプタの組み合わせは、マルチドメイン視覚認識の分野からエモセット上のマルチコーパスサーに転送される。
ResNetの2つの適切なベースラインと従来型のトレーニングおよび転送設定と比較して、残留アダプタアプローチは、26コーパスすべてでマルチドメインSERモデルのパラメータ効率的なトレーニングを可能にする。
1つのデータベースでトレーニングされたモデルのパラメータ数を3.5ドルしか持たない共有モデルは、EmoSetの26コーパスのうち21でパフォーマンスが向上する。
McNemarのテストによって測定されたこれらの改善は、10個のデータセットに対して$p<0.05$でさらに重要であり、残りのアダプタ転送実験でわずか2つのコーパスしか減少しない。
最後に、EmoNetフレームワークをhttps://github.com/EIHW/EmoNet.comでユーザと開発者に公開しています。
EmoNetは、包括的にドキュメント化され、さまざまなマルチコーパス転送学習設定で使用できる広範なコマンドラインインターフェースを提供する。
関連論文リスト
- HU at SemEval-2024 Task 8A: Can Contrastive Learning Learn Embeddings to
Detect Machine-Generated Text? [0.0]
本稿では,SemEval-2024タスク8"マルチジェネレータ,マルチドメイン,マルチ言語ブラックボックスマシン生成テキスト検出"のために開発したシステムについて述べる。
本研究では,ベースラインのパラメータの40%を用いたコントラスト学習に基づく単一モデルを提案する。
重要な発見は、複数のモデルのアンサンブルがなくても、単一のベースモデルは、データ拡張と対照的な学習の助けを借りて、同等のパフォーマンスを持つことができるということです。
論文 参考訳(メタデータ) (2024-02-19T04:11:34Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [78.73547416883987]
クロスミクススピーカを提案する。
話者間の表現を集約することでSIMOモデルの限界に対処するネットワーク。
CSE-SOT モデルは,単語誤り率 (WER) をSOT モデルと比較して10%削減し,ハイオーバーラップ音声では16%削減する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Versatile Audio-Visual Learning for Handling Single and Multi Modalities
in Emotion Regression and Classification Tasks [28.03046198108713]
本研究は,非モーダル・マルチモーダルシステムを扱うための音声視覚学習(VAVL)フレームワークを提案する。
音声と視覚のペアリングができない場合でもトレーニングできるオーディオ・ビジュアル・フレームワークを実装した。
VAVLは、MSP-IMPROVコーパス上で感情属性予測タスクにおいて、新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T03:13:37Z) - PoE: a Panel of Experts for Generalized Automatic Dialogue Assessment [58.46761798403072]
モデルベース自動対話評価基準(ADEM)は,複数の領域にわたって良好に機能することが期待される。
大きな進歩にもかかわらず、ある領域でうまく機能するADEMは必ずしも他の領域に一般化するとは限らない。
本稿では,共有トランスフォーマーエンコーダと軽量アダプタの集合からなるPanel of Experts (PoE)ネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-18T02:26:50Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - Learning from partially labeled data for multi-organ and tumor
segmentation [102.55303521877933]
本稿では,トランスフォーマーに基づく動的オンデマンドネットワーク(TransDoDNet)を提案する。
動的ヘッドにより、ネットワークは複数のセグメンテーションタスクを柔軟に達成することができる。
我々はMOTSと呼ばれる大規模にラベル付けされたMulti-Organ and tumorベンチマークを作成し、他の競合相手よりもTransDoDNetの方が優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-13T13:03:09Z) - MogaNet: Multi-order Gated Aggregation Network [64.16774341908365]
我々は,識別的視覚的表現学習のために,MogaNetと呼ばれる現代ConvNetの新たなファミリーを提案する。
MogaNetは概念的に単純だが効果的な畳み込みをカプセル化し、集約をコンパクトモジュールに集約する。
MogaNetは、ImageNetの最先端のViTやConvNetと比較して、優れたスケーラビリティ、パラメータの大幅な効率、競争性能を示している。
論文 参考訳(メタデータ) (2022-11-07T04:31:17Z) - CTL-MTNet: A Novel CapsNet and Transfer Learning-Based Mixed Task Net
for the Single-Corpus and Cross-Corpus Speech Emotion Recognition [15.098532236157556]
音声感情認識(SER)は、人間とコンピュータの相互作用の研究の焦点となっている。
この課題に対処するために、シングルコーパスとクロスコーパスSERタスクを同時に扱うために、Capsule Network(CapsNet)とTransfer LearningベースのMixed Task Net(CTLMTNet)が提案されている。
その結果,CTL-MTNetは両タスクとも,複数の最先端手法と比較して,全てのケースで優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-18T09:09:23Z) - ELIT: Emory Language and Information Toolkit [15.340540198612826]
ELITは、コアタスクのためのトランスフォーマーベースのエンドツーエンドモデルを提供する包括的なフレームワークである。
ELITは効率のよいマルチタスク学習(MTL)モデルを備えており、レムマティゼーション、部分音声タグ付け、名前付きエンティティ認識、依存性解析、候補解析、セマンティックロールラベリング、AMR解析など、多くの下流タスクがある。
論文 参考訳(メタデータ) (2021-09-08T19:50:07Z) - DoDNet: Learning to segment multi-organ and tumors from multiple
partially labeled datasets [102.55303521877933]
本稿では,複数の臓器と腫瘍を部分的にラベル付けしたデータセット上に分割する動的オンデマンドネットワーク(DoDNet)を提案する。
DoDNetは共有エンコーダデコーダアーキテクチャ、タスク符号化モジュール、動的畳み込みフィルタを生成するコントローラ、そして単一だが動的セグメンテーションヘッドで構成されている。
論文 参考訳(メタデータ) (2020-11-20T04:56:39Z) - Multi-Modal Emotion Detection with Transfer Learning [0.7629717457706324]
音声における感情検出は、単語間の複雑な相互依存と、それらが話される方法によって難しい課題である。
本稿では、まず音声とテキストの関連タスクから学習を伝達し、堅牢なニューラル埋め込みを生成するマルチモーダルアプローチを提案する。
我々は、TDNN単独、各層からの音声埋め込み、テキスト埋め込み単独、および各組み合わせの予測能力を評価する。
論文 参考訳(メタデータ) (2020-11-13T18:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。