論文の概要: Leveraging Semantic Information for Efficient Self-Supervised Emotion
Recognition with Audio-Textual Distilled Models
- arxiv url: http://arxiv.org/abs/2305.19184v1
- Date: Tue, 30 May 2023 16:29:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 15:04:22.085628
- Title: Leveraging Semantic Information for Efficient Self-Supervised Emotion
Recognition with Audio-Textual Distilled Models
- Title(参考訳): 音声テキスト蒸留モデルを用いた効率的な自己監督感情認識のための意味情報の活用
- Authors: Danilo de Oliveira, Navin Raj Prabhu, Timo Gerkmann
- Abstract要約: 本稿では,HuBERTをSSLモデルの例として捉え,各レイヤの関連性を分析して音声感情認識を行う。
浅い層は覚醒的認識においてより重要であり,深い層は原子価にとってより重要であることを示す。
本稿では,大規模なSSLモデルのトレーニング可能なパラメータの20%しか持たないオーディオテキスト蒸留SSLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.16865739526702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In large part due to their implicit semantic modeling, self-supervised
learning (SSL) methods have significantly increased the performance of valence
recognition in speech emotion recognition (SER) systems. Yet, their large size
may often hinder practical implementations. In this work, we take HuBERT as an
example of an SSL model and analyze the relevance of each of its layers for
SER. We show that shallow layers are more important for arousal recognition
while deeper layers are more important for valence. This observation motivates
the importance of additional textual information for accurate valence
recognition, as the distilled framework lacks the depth of its large-scale SSL
teacher. Thus, we propose an audio-textual distilled SSL framework that, while
having only ~20% of the trainable parameters of a large SSL model, achieves on
par performance across the three emotion dimensions (arousal, valence,
dominance) on the MSP-Podcast v1.10 dataset.
- Abstract(参考訳): 暗黙的なセマンティックモデリングにより、自己教師付き学習(SSL)手法は、音声認識(SER)システムにおける価値認識の性能を大幅に向上させた。
しかし、その大きなサイズは実用的な実装を妨げることが多い。
本稿では,HuBERTをSSLモデルの例として捉え,各レイヤの関連性をSERで解析する。
浅い層は覚醒的認識においてより重要であり,深い層は原子価にとってより重要であることを示す。
この観察は、大規模なSSL教師の奥行きを欠いた蒸留フレームワークにより、精度の高い原子価認識のための追加のテキスト情報の重要性を動機付けている。
そこで本稿では,MSP-Podcast v1.10データセット上の3つの感情次元(覚醒,原子価,支配性)に対して,トレーニング可能なパラメータの約20%しか持たないオーディオテキスト蒸留SSLフレームワークを提案する。
関連論文リスト
- Exploring Self-Supervised Multi-view Contrastive Learning for Speech Emotion Recognition with Limited Annotations [1.6008229267455227]
本稿では,大規模な音声モデルから生成されるものを含む,さまざまな音声表現に適用可能なマルチビューSSL事前学習手法を提案する。
我々の実験は、wav2vec 2.0に基づくスペクトルおよびパラ言語の特徴に基づいて、提案したフレームワークが、Unweighted Average Recallにおいて最大10%SER性能を向上することを示した。
論文 参考訳(メタデータ) (2024-06-12T06:06:55Z) - Self-supervised Neural Factor Analysis for Disentangling Utterance-level
Speech Representations [30.293081541301746]
wav2vecやHuBERTのような自己教師付き学習(SSL)音声モデルは、音声認識における最先端の性能を実証している。
この問題は,不整合表現の欠如と発話レベルの学習目標が原因である。
我々のモデルは、SUPERBベンチマークの全ての発話レベル非意味タスクにおいて、ラベル付きデータのわずか20%で、現在の最高のモデルであるWavLMより優れています。
論文 参考訳(メタデータ) (2023-05-14T08:26:24Z) - Deep versus Wide: An Analysis of Student Architectures for Task-Agnostic
Knowledge Distillation of Self-Supervised Speech Models [18.22157315310462]
自己教師付き学習(SSL)は、いくつかの音声下流タスクで高いパフォーマンスを持つ、非常に有望なアプローチであると見なされている。
圧縮手法を適用することにより、性能を著しく低下させることなく、コンパクトなSSLモデルを作成することが望ましい。
本稿では,小図形モデルの内部表現の深さと幅の変化がどのように影響するかを実験的に検討する。
論文 参考訳(メタデータ) (2022-07-14T12:43:36Z) - Why does Self-Supervised Learning for Speech Recognition Benefit Speaker
Recognition? [86.53044183309824]
話者関連課題における自己教師型学習の成功につながる要因について検討する。
Voxceleb-1データセットにおける実験結果から,SVタスクに対するSSLの利点は,マスクによる予測損失,データスケール,モデルサイズの組み合わせによるものであることが示唆された。
論文 参考訳(メタデータ) (2022-04-27T08:35:57Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Membership Inference Attacks Against Self-supervised Speech Models [62.73937175625953]
連続音声における自己教師付き学習(SSL)が注目されている。
ブラックボックスアクセス下でのMIA(Commanship Inference Attacks)を用いたSSL音声モデルに対する最初のプライバシ分析を行う。
論文 参考訳(メタデータ) (2021-11-09T13:00:24Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。