論文の概要: Recognizing More Emotions with Less Data Using Self-supervised Transfer
Learning
- arxiv url: http://arxiv.org/abs/2011.05585v1
- Date: Wed, 11 Nov 2020 06:18:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 01:08:54.260848
- Title: Recognizing More Emotions with Less Data Using Self-supervised Transfer
Learning
- Title(参考訳): 自己教師型トランスファー学習を用いた少ないデータによる感情認識
- Authors: Jonathan Boigne, Biman Liyanage, Ted \"Ostrem
- Abstract要約: 本稿では,音声認識のための新しい伝達学習手法を提案する。
感情のクラス毎の125のサンプルでは、8倍のデータでトレーニングされた強いベースラインよりも高い精度を達成できたのです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel transfer learning method for speech emotion recognition
allowing us to obtain promising results when only few training data is
available. With as low as 125 examples per emotion class, we were able to reach
a higher accuracy than a strong baseline trained on 8 times more data. Our
method leverages knowledge contained in pre-trained speech representations
extracted from models trained on a more general self-supervised task which
doesn't require human annotations, such as the wav2vec model. We provide
detailed insights on the benefits of our approach by varying the training data
size, which can help labeling teams to work more efficiently. We compare
performance with other popular methods on the IEMOCAP dataset, a
well-benchmarked dataset among the Speech Emotion Recognition (SER) research
community. Furthermore, we demonstrate that results can be greatly improved by
combining acoustic and linguistic knowledge from transfer learning. We align
acoustic pre-trained representations with semantic representations from the
BERT model through an attention-based recurrent neural network. Performance
improves significantly when combining both modalities and scales with the
amount of data. When trained on the full IEMOCAP dataset, we reach a new
state-of-the-art of 73.9% unweighted accuracy (UA).
- Abstract(参考訳): 学習データが少ない場合に有望な結果が得られる音声感情認識のための新しい転送学習法を提案する。
感情クラス毎の125例という低さで、8倍以上のデータでトレーニングされた強力なベースラインよりも高い精度を実現できたのです。
提案手法は,wav2vecモデルのような人間のアノテーションを必要としない,より汎用的な自己教師型タスクで訓練されたモデルから抽出された事前訓練された音声表現に含まれる知識を活用する。
私たちは、トレーニングデータサイズを変更することで、このアプローチのメリットに関する詳細な洞察を提供し、チームのラベリングをより効率的にする上で役立ちます。
音声感情認識(SER)研究コミュニティの中で,よく知られたデータセットであるIEMOCAPデータセットの他の一般的な手法との比較を行った。
さらに,伝達学習の音響知識と言語知識を組み合わせることで,結果を大幅に改善できることを示す。
我々は、アコースティック・プレトレーニングされた表現とBERTモデルからのセマンティックな表現とを、注意に基づくリカレントニューラルネットワークを通して一致させる。
モダリティとスケールをデータ量と組み合わせることで、パフォーマンスが大幅に向上する。
完全なIEMOCAPデータセットでトレーニングすると、73.9%の非重み付き精度(UA)の新しい最先端に達する。
関連論文リスト
- A Cross-Lingual Meta-Learning Method Based on Domain Adaptation for Speech Emotion Recognition [1.8377902806196766]
最高のパフォーマンスの音声モデルは、彼らが目的とする言語で大量のデータに基づいて訓練される。
ほとんどの言語はスパースデータを持ち、トレーニングモデルを困難にしている。
本研究は、限られたデータ、特に音声感情認識のためのモデルの性能について考察する。
論文 参考訳(メタデータ) (2024-10-06T21:33:51Z) - Searching for Effective Preprocessing Method and CNN-based Architecture with Efficient Channel Attention on Speech Emotion Recognition [0.0]
音声感情認識(SER)は、人間の感情をコンピュータモデルで分類する。
本稿では,効率的なチャネルアテンション(ECA)を用いた6層畳み込みニューラルネットワーク(CNN)モデルを提案する。
対話型感情的動的モーションキャプチャー(IEMOCAP)データセットでは、前処理による感情音声の周波数分解能が向上し、感情認識性能が向上する。
論文 参考訳(メタデータ) (2024-09-06T03:17:25Z) - Self-Supervised Learning for Audio-Based Emotion Recognition [1.7598252755538808]
自己教師付き学習は、教師付きラベルの不足にもかかわらず学習できる方法のファミリーである。
我々は,CMU-MOSEIの音響モダリティからの感情の分類に自己教師付き学習事前学習を適用した。
自己教師型学習は、すべてのメトリクスにわたるモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-07-23T14:40:50Z) - BERT WEAVER: Using WEight AVERaging to enable lifelong learning for
transformer-based models in biomedical semantic search engines [49.75878234192369]
We present WEAVER, a simple, yet efficient post-processing method that infuse old knowledge into the new model。
WEAVERを逐次的に適用すると、同じ単語の埋め込み分布が、一度にすべてのデータに対する総合的なトレーニングとして得られることを示す。
論文 参考訳(メタデータ) (2022-02-21T10:34:41Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Self-training Improves Pre-training for Natural Language Understanding [63.78927366363178]
我々は、半教師付き学習を通じてラベルのないデータを活用する別の方法として、自己学習について研究する。
本稿では,ラベル付きデータからタスク固有のクエリの埋め込みを計算するデータ拡張手法であるSentAugmentを紹介する。
我々のアプローチは、標準的なテキスト分類ベンチマークで最大2.6%の改善を達成し、スケーラブルで効果的な自己学習に繋がる。
論文 参考訳(メタデータ) (2020-10-05T17:52:25Z) - ALICE: Active Learning with Contrastive Natural Language Explanations [69.03658685761538]
本研究では,学習におけるデータ効率を向上させるために,AlICEを用いたアクティブラーニングを提案する。
ALICEは、まずアクティブラーニングを使用して、最も情報に富んだラベルクラスを選択し、対照的な自然言語の説明を引き出す。
意味的に抽出された知識を用いて、これらの説明から知識を抽出する。
論文 参考訳(メタデータ) (2020-09-22T01:02:07Z) - A Transfer Learning Method for Speech Emotion Recognition from Automatic
Speech Recognition [0.0]
本稿では,時間遅延ニューラルネットワークアーキテクチャに基づく音声感情認識における伝達学習手法を示す。
5倍のクロスバリデーションを用いて,最先端技術と比較して高い精度を実現する。
論文 参考訳(メタデータ) (2020-08-06T20:37:22Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。