論文の概要: Exploring Wav2vec 2.0 fine-tuning for improved speech emotion
recognition
- arxiv url: http://arxiv.org/abs/2110.06309v1
- Date: Tue, 12 Oct 2021 19:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 14:04:33.417231
- Title: Exploring Wav2vec 2.0 fine-tuning for improved speech emotion
recognition
- Title(参考訳): 音声認識改善のためのWav2vec 2.0微調整の検討
- Authors: Li-Wei Chen and Alexander Rudnicky
- Abstract要約: wav2vec 2.0は、音声感情認識(SER)に使用できる
バニラ微調整(V-FT)とタスク適応事前訓練(TAPT)の2つの基本手法を最初に提示する。
V-FTがIEMOCAPデータセットの最先端モデルより優れていることを示す。
P-TAPTと呼ばれる新しい微調整手法も導入し、TAPTの目的を変更して文脈化された感情表現を学習する。
- 参考スコア(独自算出の注目度): 78.92428622630861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While wav2vec 2.0 has been proposed for speech recognition (ASR), it can also
be used for speech emotion recognition (SER); its performance can be
significantly improved using different fine-tuning strategies. Two baseline
methods, vanilla fine-tuning (V-FT) and task adaptive pretraining (TAPT) are
first presented. We show that V-FT is able to outperform state-of-the-art
models on the IEMOCAP dataset. TAPT, an existing NLP fine-tuning strategy,
further improves the performance on SER. We also introduce a novel fine-tuning
method termed P-TAPT, which modifies the TAPT objective to learn contextualized
emotion representations. Experiments show that P-TAPT performs better than TAPT
especially under low-resource settings. Compared to prior works in this
literature, our top-line system achieved a 7.4% absolute improvement on
unweighted accuracy (UA) over the state-of-the-art performance on IEMOCAP. Our
code is publicly available.
- Abstract(参考訳): wav2vec 2.0は音声認識(ASR)のために提案されているが、音声認識(SER)にも使用できる。
バニラ微調整(V-FT)とタスク適応事前訓練(TAPT)の2つの基本手法を最初に提示する。
V-FTはIEMOCAPデータセットの最先端モデルより優れていることを示す。
既存のNLPファインチューニング戦略であるTAPTは、SERの性能をさらに向上させる。
P-TAPTと呼ばれる新しい微調整手法も導入し、TAPTの目的を変更して文脈化された感情表現を学習する。
実験の結果,P-TAPTは低リソース環境下ではTAPTよりも優れていた。
この文献の先行研究と比較すると、トップラインシステムはIEMOCAPの最先端性能よりも7.4%の精度(UA)が絶対的に向上した。
私たちのコードは公開されています。
関連論文リスト
- VeCAF: VLM-empowered Collaborative Active Finetuning with Training
Objective Awareness [58.40419742596087]
PVM(Pretrained Vision Model)は、下流の視覚タスクを学習するための一般的なテクニックである。
VLMを用いた協調型アクティブファインタニング(VeCAF)を提案する。
VeCAFは、調整中のモデルのトレーニング目標を組み込むことで、パラメトリックデータ選択モデルを最適化する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - AutoVP: An Automated Visual Prompting Framework and Benchmark [66.5618543577204]
ビジュアルプロンプト(VP)は、様々な下流画像分類タスクを解決するために、事前訓練された視覚モデルを適用するための、パラメータ効率の高い微調整手法である。
本稿では,VP設計選択を自動化するエンドツーエンド拡張可能なフレームワークであるAutoVPと,12のダウンストリーム画像分類タスクを提案する。
実験の結果,AutoVPは,現在よく知られているVP手法よりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-12T14:55:31Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - A Comparative Study of Pre-trained Speech and Audio Embeddings for
Speech Emotion Recognition [0.0]
音声感情認識(SER)には、カスタマーコールの動的分析、メンタルヘルスアセスメント、パーソナライズされた言語学習など、幅広い応用がある。
事前学習されたモデル(PTM)は、音声と音声の領域において大きな可能性を秘めている。これらのモデルから活用された埋め込みは、様々な下流タスクにおけるアプリケーションによるアルゴリズム学習のインプットとして機能する。
本研究では,4つの音声感情データセット(CREMA-D,TESS,SAVEE,Emo-DB)を用いて3つのアルゴリズムを学習し,実験的な分析を行った。
本研究の結果から, 組込みを訓練したアルゴリズムにより, 最高の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-04-22T19:56:35Z) - Bag of Tricks for Effective Language Model Pretraining and Downstream
Adaptation: A Case Study on GLUE [93.98660272309974]
このレポートでは、ジェネラル言語理解評価のリーダーボードに関するVega v1を簡潔に紹介します。
GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。
最適化された事前学習と微調整の戦略により、13億のモデルは4/9タスクに新しい最先端のタスクを設定し、91.3の平均スコアを達成しました。
論文 参考訳(メタデータ) (2023-02-18T09:26:35Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z) - Robust Speaker Recognition with Transformers Using wav2vec 2.0 [7.419725234099729]
本稿では,話者認識タスクにwav2vec 2.0深層音声表現を用いることについて検討する。
コントラスト予測符号化事前学習方式は, ラベルなしデータのパワーを効果的に活用する。
論文 参考訳(メタデータ) (2022-03-28T20:59:58Z) - Performance-Efficiency Trade-offs in Unsupervised Pre-training for
Speech Recognition [32.61769580342906]
我々は、wav2vec 2.0にフォーカスし、モデルの性能と効率の両方に影響を与えるいくつかのアーキテクチャ設計を定式化します。
本稿では,性能と効率の両面で大幅な改善を施した事前学習型モデルアーキテクチャであるSEW(Squeezed and Efficient Wav2vec)を紹介する。
論文 参考訳(メタデータ) (2021-09-14T17:58:09Z) - Emotion Recognition from Speech Using Wav2vec 2.0 Embeddings [16.829474982595837]
音声認識のための伝達学習手法を提案する。
トレーニング前のモデルからいくつかのレイヤーの出力を、下流モデルとの共同学習可能なウェイトで組み合わせます。
提案手法をIEMOCAPとRAVDESSの2つの標準感情データベース上で評価し,結果よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-04-08T04:31:58Z) - On Scaling Contrastive Representations for Low-Resource Speech
Recognition [12.447872366013224]
計算要求のwav2vec 2.0フレームワークから,固定表現に対して最先端の音声認識器を訓練する。
極端に低リソース環境では、wav2vec 2.0は前者よりも劣っている。
論文 参考訳(メタデータ) (2021-02-01T13:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。