Fugu-MT 論文翻訳(概要): Pre-Finetuning for Few-Shot Emotional Speech Recognition

論文の概要: Pre-Finetuning for Few-Shot Emotional Speech Recognition

arxiv url: http://arxiv.org/abs/2302.12921v3
Date: Thu, 07 Nov 2024 15:44:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:28.662614
Title: Pre-Finetuning for Few-Shot Emotional Speech Recognition
Title（参考訳）: 少数ショット感情音声認識のためのプレファイナリング
Authors: Maximillian Chen, Zhou Yu,
Abstract要約: 我々は話者適応を数発の学習問題と見なしている。そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
参考スコア（独自算出の注目度）: 20.894029832911617
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speech models have long been known to overfit individual speakers for many classification tasks. This leads to poor generalization in settings where the speakers are out-of-domain or out-of-distribution, as is common in production environments. We view speaker adaptation as a few-shot learning problem and propose investigating transfer learning approaches inspired by recent success with pre-trained models in natural language tasks. We propose pre-finetuning speech models on difficult tasks to distill knowledge into few-shot downstream classification objectives. We pre-finetune Wav2Vec2.0 on every permutation of four multiclass emotional speech recognition corpora and evaluate our pre-finetuned models through 33,600 few-shot fine-tuning trials on the Emotional Speech Dataset.
Abstract（参考訳）: 音声モデルは、多くの分類タスクにおいて個々の話者に過度に適合することが長年知られている。これにより、本番環境で一般的なように、話者がドメイン外または配布外であるような設定での一般化が不十分になる。我々は、話者適応を数ショットの学習問題とみなし、自然言語タスクにおける事前学習モデルによる近年の成功に触発された伝達学習アプローチについて検討する。そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。我々は,4種類の感情音声認識コーパスのすべての順列にWav2Vec2.0をプリフィニチューンし,感情音声データセットの33,600枚のファインチューン試行を通じて,我々のプレフィニチューンモデルを評価する。

関連論文リスト

Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文参考訳（メタデータ） (2024-09-23T02:34:42Z)
Exploring Speech Recognition, Translation, and Understanding with Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文参考訳（メタデータ） (2023-09-27T17:21:13Z)
Self-supervised Fine-tuning for Improved Content Representations by Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。 Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文参考訳（メタデータ） (2023-05-18T15:59:36Z)
SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文参考訳（メタデータ） (2023-02-03T01:36:38Z)
Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文参考訳（メタデータ） (2022-05-21T16:52:57Z)
An Exploration of Prompt Tuning on Generative Spoken Language Model for Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文参考訳（メタデータ） (2022-03-31T03:26:55Z)
Unsupervised Personalization of an Emotion Recognition System: The Unique Properties of the Externalization of Valence in Speech [37.6839508524855]
音声感情認識システムを特定の話者に適用することは、特にディープニューラルネットワーク(DNN)において難しい問題である。本研究は,テストセットの話者と同じような音響パターンを持つ列車の話者を探索することにより,この問題に対処するための教師なしアプローチを提案する。本稿では,一意な話者,オーバサンプリング,重み付けという3つの方法を提案する。
論文参考訳（メタデータ） (2022-01-19T22:14:49Z)
Personalized Speech Enhancement: New Models and Comprehensive Evaluation [27.572537325449158]
従来提案されていたVoiceFilterよりも優れた性能を実現するために,パーソナライズされた音声強調(PSE)モデルのための2つのニューラルネットワークを提案する。また、ビデオ会議中にユーザが遭遇するさまざまなシナリオをキャプチャするテストセットも作成します。その結果,提案モデルでは,ベースラインモデルよりも音声認識精度,音声認識精度,知覚品質が向上することが示唆された。
論文参考訳（メタデータ） (2021-10-18T21:21:23Z)
Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。 AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文参考訳（メタデータ） (2021-10-14T12:32:40Z)
Self-Supervised Learning from Contrastive Mixtures for Personalized Speech Enhancement [19.645016575334786]
この研究は、話者固有の特徴を発見するために、自己教師付き学習を普遍的に利用する方法を探求する。ノイズの多いデータをその場しのぎの訓練対象として扱う,単純なコントラスト学習手法を開発した。
論文参考訳（メタデータ） (2020-11-06T15:21:00Z)
Learning Explicit Prosody Models and Deep Speaker Embeddings for Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文参考訳（メタデータ） (2020-11-03T13:08:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。