論文の概要: Few-shot Learning in Emotion Recognition of Spontaneous Speech Using a
Siamese Neural Network with Adaptive Sample Pair Formation
- arxiv url: http://arxiv.org/abs/2109.02915v1
- Date: Tue, 7 Sep 2021 08:04:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 14:32:23.267516
- Title: Few-shot Learning in Emotion Recognition of Spontaneous Speech Using a
Siamese Neural Network with Adaptive Sample Pair Formation
- Title(参考訳): 適応型サンプルペア形成を有するシームズニューラルネットワークを用いた自発音声の感情認識におけるFew-shot Learning
- Authors: Kexin Feng and Theodora Chaspari
- Abstract要約: 本稿では,少数のラベル付きサンプルから自然発話中の感情を自動的に認識するための,数発の学習手法を提案する。
ほとんどショットラーニングは、シアムニューラルネットワークを介してメトリックラーニングアプローチによって実装されている。
その結果,4つのデータセットにおける自発音声からの感情認識におけるメトリック学習の有効性が示唆された。
- 参考スコア(独自算出の注目度): 11.592365534228895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-based machine learning (ML) has been heralded as a promising solution
for tracking prosodic and spectrotemporal patterns in real-life that are
indicative of emotional changes, providing a valuable window into one's
cognitive and mental state. Yet, the scarcity of labelled data in ambulatory
studies prevents the reliable training of ML models, which usually rely on
"data-hungry" distribution-based learning. Leveraging the abundance of labelled
speech data from acted emotions, this paper proposes a few-shot learning
approach for automatically recognizing emotion in spontaneous speech from a
small number of labelled samples. Few-shot learning is implemented via a metric
learning approach through a siamese neural network, which models the relative
distance between samples rather than relying on learning absolute patterns of
the corresponding distributions of each emotion. Results indicate the
feasibility of the proposed metric learning in recognizing emotions from
spontaneous speech in four datasets, even with a small amount of labelled
samples. They further demonstrate superior performance of the proposed metric
learning compared to commonly used adaptation methods, including network
fine-tuning and adversarial learning. Findings from this work provide a
foundation for the ambulatory tracking of human emotion in spontaneous speech
contributing to the real-life assessment of mental health degradation.
- Abstract(参考訳): 音声ベースの機械学習(ML)は、感情の変化を示す実生活における韻律的パターンとスペクトル的パターンを追跡するための有望なソリューションとして認識され、認知的および精神状態への貴重な窓を提供する。
しかし、増幅実験におけるラベル付きデータの不足は、通常「データハングリー」分布に基づく学習に依存するMLモデルの信頼性の高いトレーニングを妨げている。
本稿では,行動感情からのラベル付き音声データの豊富さを活かし,少数のラベル付きサンプルから自発音声の感情を自動認識する数発学習手法を提案する。
少数ショット学習は、各感情の対応する分布の絶対的なパターンを学習するよりも、サンプル間の相対的距離をモデル化する、シャムニューラルネットワークによるメトリック学習アプローチによって実装される。
その結果, 少量のラベル付きサンプルであっても, 4つのデータセットにおける自発音声からの感情認識において, 提案手法の有効性が示唆された。
さらに,ネットワークファインチューニングや対向学習など,一般的な適応手法と比較して,提案手法の優れた性能を示す。
この研究から得られた知見は、心の健康劣化の実際の評価に寄与する自然発話における人間の感情の増幅的追跡の基礎となる。
関連論文リスト
- Self-supervised Gait-based Emotion Representation Learning from Selective Strongly Augmented Skeleton Sequences [4.740624855896404]
自己教師型歩行に基づく感情表現のための選択的強強化を利用したコントラスト学習フレームワークを提案する。
提案手法はEmotion-Gait (E-Gait) と Emilya のデータセットで検証され, 異なる評価プロトコル下での最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-05-08T09:13:10Z) - Self-Supervised Learning for Audio-Based Emotion Recognition [1.7598252755538808]
自己教師付き学習は、教師付きラベルの不足にもかかわらず学習できる方法のファミリーである。
我々は,CMU-MOSEIの音響モダリティからの感情の分類に自己教師付き学習事前学習を適用した。
自己教師型学習は、すべてのメトリクスにわたるモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-07-23T14:40:50Z) - Phonetic and Prosody-aware Self-supervised Learning Approach for
Non-native Fluency Scoring [13.817385516193445]
音声と韻律の特徴を解析することにより、音声の流速/拡散を評価することができる。
ディープ・ニューラル・ネットワークは一般に、流感に関連した特徴を人間のスコアにマッピングするように訓練されている。
本稿では,流音評価のための音声と韻律の認識を考慮した自己教師付き学習(SSL)手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T05:39:41Z) - Measures of Information Reflect Memorization Patterns [53.71420125627608]
異なるニューロンの活性化パターンの多様性は、モデル一般化と記憶の反映であることを示す。
重要なことは、情報組織が記憶の2つの形態を指していることである。
論文 参考訳(メタデータ) (2022-10-17T20:15:24Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Affect-DML: Context-Aware One-Shot Recognition of Human Affect using
Deep Metric Learning [29.262204241732565]
既存の方法は、すべての関心の感情に注釈付きトレーニングの例として優先順位が与えられると仮定している。
我々は、文脈における感情のワンショット認識を概念化し、単一のサポートサンプルからより細かい粒子レベルの人間の影響状態を認識することを目的とした新しい問題である。
モデルの全変種は、ランダムなベースラインよりも明らかに優れており、セマンティックシーンのコンテキストを活用することで、学習された表現を一貫して改善している。
論文 参考訳(メタデータ) (2021-11-30T10:35:20Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Empowering Language Understanding with Counterfactual Reasoning [141.48592718583245]
本稿では,反現実的思考を模倣した反現実的推論モデルを提案する。
特に,各実例に対して代表的対実サンプルを生成する生成モジュールを考案し,その対実サンプルと実例サンプルを比較してモデル予測を振り返るレトロスペクティブモジュールを考案した。
論文 参考訳(メタデータ) (2021-06-06T06:36:52Z) - A Transfer Learning Method for Speech Emotion Recognition from Automatic
Speech Recognition [0.0]
本稿では,時間遅延ニューラルネットワークアーキテクチャに基づく音声感情認識における伝達学習手法を示す。
5倍のクロスバリデーションを用いて,最先端技術と比較して高い精度を実現する。
論文 参考訳(メタデータ) (2020-08-06T20:37:22Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。