Fugu-MT 論文翻訳(概要): EmoNet: A Transfer Learning Framework for Multi-Corpus Speech Emotion Recognition

論文の概要: EmoNet: A Transfer Learning Framework for Multi-Corpus Speech Emotion Recognition

arxiv url: http://arxiv.org/abs/2103.08310v1
Date: Wed, 10 Mar 2021 19:12:37 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-05 00:59:27.101417
Title: EmoNet: A Transfer Learning Framework for Multi-Corpus Speech Emotion Recognition
Title（参考訳）: emonet: 多言語音声感情認識のためのトランスファー学習フレームワーク
Authors: Maurice Gerczuk and Shahin Amiriparian and Sandra Ottl and Bj\"orn Schuller
Abstract要約: 感情的な音声データの大規模なコーパス、EmoSetは、既存のSERコーポラの数から組み立てられます。コーパスは、マルチコーパス音声の感情認識のための新しいフレームワーク、すなわちEmoNetを作成するために使用される。
参考スコア（独自算出の注目度）: 7.167550590287387
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this manuscript, the topic of multi-corpus Speech Emotion Recognition (SER) is approached from a deep transfer learning perspective. A large corpus of emotional speech data, EmoSet, is assembled from a number of existing SER corpora. In total, EmoSet contains 84181 audio recordings from 26 SER corpora with a total duration of over 65 hours. The corpus is then utilised to create a novel framework for multi-corpus speech emotion recognition, namely EmoNet. A combination of a deep ResNet architecture and residual adapters is transferred from the field of multi-domain visual recognition to multi-corpus SER on EmoSet. Compared against two suitable baselines and more traditional training and transfer settings for the ResNet, the residual adapter approach enables parameter efficient training of a multi-domain SER model on all 26 corpora. A shared model with only $3.5$ times the number of parameters of a model trained on a single database leads to increased performance for 21 of the 26 corpora in EmoSet. Measured by McNemar's test, these improvements are further significant for ten datasets at $p<0.05$ while there are just two corpora that see only significant decreases across the residual adapter transfer experiments. Finally, we make our EmoNet framework publicly available for users and developers at https://github.com/EIHW/EmoNet. EmoNet provides an extensive command line interface which is comprehensively documented and can be used in a variety of multi-corpus transfer learning settings.
Abstract（参考訳）: 本稿では,多体音声感情認識(SER)の話題について,深層移動学習の観点から考察する。感情音声データの大規模なコーパスであるエモセットは、既存の多数のサーコーパスから組み立てられる。 EmoSetには、26のSERコーパスから84181のオーディオ録音が含まれており、合計65時間を超える。コーパスを使用して、マルチコーパス音声感情認識のための新しいフレームワーク、すなわちEmoNetを作成する。ディープresnetアーキテクチャと残差アダプタの組み合わせは、マルチドメイン視覚認識の分野からエモセット上のマルチコーパスサーに転送される。 ResNetの2つの適切なベースラインと従来型のトレーニングおよび転送設定と比較して、残留アダプタアプローチは、26コーパスすべてでマルチドメインSERモデルのパラメータ効率的なトレーニングを可能にする。 1つのデータベースでトレーニングされたモデルのパラメータ数を3.5ドルしか持たない共有モデルは、EmoSetの26コーパスのうち21でパフォーマンスが向上する。 McNemarのテストによって測定されたこれらの改善は、10個のデータセットに対して$p<0.05$でさらに重要であり、残りのアダプタ転送実験でわずか2つのコーパスしか減少しない。最後に、EmoNetフレームワークをhttps://github.com/EIHW/EmoNet.comでユーザと開発者に公開しています。 EmoNetは、包括的にドキュメント化され、さまざまなマルチコーパス転送学習設定で使用できる広範なコマンドラインインターフェースを提供する。

関連論文リスト

Emo Pillars: Knowledge Distillation to Support Fine-Grained Context-Aware and Context-Less Emotion Classification [56.974545305472304]
感情分析のためのほとんどのデータセットは、意見が表現された文脈を欠き、感情理解に不可欠であり、主にいくつかの感情カテゴリーによって制限される。我々はLLMベースのデータ合成パイプラインを設計し、よりアクセスしやすい軽量BERT型エンコーダモデルのトレーニング例を生成するために、大規模モデルMistral-7bを利用する。 Emo Pillarsモデルは、GoEmotions、ISEAR、IEMOCAP、EmoContextといった特定のタスクに調整された場合、新しいドメインに対して高い適応性を示し、最初の3つでSOTAのパフォーマンスに達した。
論文参考訳（メタデータ） (2025-04-23T16:23:17Z)
DocParseNet: Advanced Semantic Segmentation and OCR Embeddings for Efficient Scanned Document Annotation [1.1650821883155187]
DocParseNetは、ディープラーニングとマルチモーダル学習を組み合わせて、テキストとビジュアルデータの両方を処理する。従来のモデルよりも大幅に優れており、検証ではmIoUスコアが49.12、テストセットでは49.78である。
論文参考訳（メタデータ） (2024-06-25T14:32:31Z)
Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文参考訳（メタデータ） (2024-06-17T03:01:22Z)
ExHuBERT: Enhancing HuBERT Through Block Extension and Fine-Tuning on 37 Emotion Datasets [46.87176674510716]
EmoSet++は、37のデータセット、150,907のサンプル、合計119.5時間からなる包括的な多言語・多文化の音声感情コーパスである。次に、バックボーン拡張とEmoSet++の微調整によって達成されたHuBERTの拡張バージョンであるExHuBERTを紹介します。未知のデータセットに対する評価は、ExHuBERTの有効性を示し、様々なSERタスクに対する新しいベンチマークを設定した。
論文参考訳（メタデータ） (2024-06-11T21:30:15Z)
EmoBox: Multilingual Multi-corpus Speech Emotion Recognition Toolkit and Benchmark [17.025090275310465]
音声感情認識(SER)は人間とコンピュータの相互作用の重要な部分である。 EmoBox(エモボックス)は、マルチ言語対応のマルチコーパス音声感情認識ツールキットである。そこで本研究では,14言語を含む32の感情データセットを対象とした10の事前学習音声モデルのコーパス内SER結果と,完全にバランスの取れたテストセットを持つ4つのデータセットに対するクロスコーパスSER結果を示す。
論文参考訳（メタデータ） (2024-06-11T11:12:51Z)
Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文参考訳（メタデータ） (2024-01-08T16:37:45Z)
PoE: a Panel of Experts for Generalized Automatic Dialogue Assessment [58.46761798403072]
モデルベース自動対話評価基準(ADEM)は,複数の領域にわたって良好に機能することが期待される。大きな進歩にもかかわらず、ある領域でうまく機能するADEMは必ずしも他の領域に一般化するとは限らない。本稿では,共有トランスフォーマーエンコーダと軽量アダプタの集合からなるPanel of Experts (PoE)ネットワークを提案する。
論文参考訳（メタデータ） (2022-12-18T02:26:50Z)
MogaNet: Multi-order Gated Aggregation Network [64.16774341908365]
我々は,識別的視覚的表現学習のために,MogaNetと呼ばれる現代ConvNetの新たなファミリーを提案する。 MogaNetは概念的に単純だが効果的な畳み込みをカプセル化し、集約をコンパクトモジュールに集約する。 MogaNetは、ImageNetの最先端のViTやConvNetと比較して、優れたスケーラビリティ、パラメータの大幅な効率、競争性能を示している。
論文参考訳（メタデータ） (2022-11-07T04:31:17Z)
VISTANet: VIsual Spoken Textual Additive Net for Interpretable Multimodal Emotion Recognition [21.247650660908484]
本稿では、VISTANet(Visual Textual Additive Net)というマルチモーダル感情認識システムを提案する。 VISTANetは、早期と後期の融合のハイブリッドを用いて、画像、音声、テキストのモダリティから情報を融合する。 KAAP技術は、特定の感情のクラスを予測するために、各モダリティとそれに対応する特徴の寄与を計算する。
論文参考訳（メタデータ） (2022-08-24T11:35:51Z)
EmoWrite: A Sentiment Analysis-Based Thought to Text Conversion -- A Validation Study [2.1864201652609734]
EmoWriteは、既存のBCIベースのシステムの限界に対処することを目的とした、新しい脳コンピュータインタフェース(BCI)システムである。タイピング速度は6.6ワード毎分(WPM)と31.9文字毎分(CPM)で、精度は90.36%である。
論文参考訳（メタデータ） (2021-03-03T08:03:59Z)
DoDNet: Learning to segment multi-organ and tumors from multiple partially labeled datasets [102.55303521877933]
本稿では,複数の臓器と腫瘍を部分的にラベル付けしたデータセット上に分割する動的オンデマンドネットワーク(DoDNet)を提案する。 DoDNetは共有エンコーダデコーダアーキテクチャ、タスク符号化モジュール、動的畳み込みフィルタを生成するコントローラ、そして単一だが動的セグメンテーションヘッドで構成されている。
論文参考訳（メタデータ） (2020-11-20T04:56:39Z)
Multi-Modal Emotion Detection with Transfer Learning [0.7629717457706324]
音声における感情検出は、単語間の複雑な相互依存と、それらが話される方法によって難しい課題である。本稿では、まず音声とテキストの関連タスクから学習を伝達し、堅牢なニューラル埋め込みを生成するマルチモーダルアプローチを提案する。我々は、TDNN単独、各層からの音声埋め込み、テキスト埋め込み単独、および各組み合わせの予測能力を評価する。
論文参考訳（メタデータ） (2020-11-13T18:58:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。