Fugu-MT 論文翻訳(概要): Exploring Wav2vec 2.0 fine-tuning for improved speech emotion recognition

論文の概要: Exploring Wav2vec 2.0 fine-tuning for improved speech emotion recognition

arxiv url: http://arxiv.org/abs/2110.06309v1
Date: Tue, 12 Oct 2021 19:55:55 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-14 14:04:33.417231
Title: Exploring Wav2vec 2.0 fine-tuning for improved speech emotion recognition
Title（参考訳）: 音声認識改善のためのWav2vec 2.0微調整の検討
Authors: Li-Wei Chen and Alexander Rudnicky
Abstract要約: wav2vec 2.0は、音声感情認識(SER)に使用できるバニラ微調整(V-FT)とタスク適応事前訓練(TAPT)の2つの基本手法を最初に提示する。 V-FTがIEMOCAPデータセットの最先端モデルより優れていることを示す。 P-TAPTと呼ばれる新しい微調整手法も導入し、TAPTの目的を変更して文脈化された感情表現を学習する。
参考スコア（独自算出の注目度）: 78.92428622630861
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While wav2vec 2.0 has been proposed for speech recognition (ASR), it can also be used for speech emotion recognition (SER); its performance can be significantly improved using different fine-tuning strategies. Two baseline methods, vanilla fine-tuning (V-FT) and task adaptive pretraining (TAPT) are first presented. We show that V-FT is able to outperform state-of-the-art models on the IEMOCAP dataset. TAPT, an existing NLP fine-tuning strategy, further improves the performance on SER. We also introduce a novel fine-tuning method termed P-TAPT, which modifies the TAPT objective to learn contextualized emotion representations. Experiments show that P-TAPT performs better than TAPT especially under low-resource settings. Compared to prior works in this literature, our top-line system achieved a 7.4% absolute improvement on unweighted accuracy (UA) over the state-of-the-art performance on IEMOCAP. Our code is publicly available.
Abstract（参考訳）: wav2vec 2.0は音声認識(ASR)のために提案されているが、音声認識(SER)にも使用できる。バニラ微調整(V-FT)とタスク適応事前訓練(TAPT)の2つの基本手法を最初に提示する。 V-FTはIEMOCAPデータセットの最先端モデルより優れていることを示す。既存のNLPファインチューニング戦略であるTAPTは、SERの性能をさらに向上させる。 P-TAPTと呼ばれる新しい微調整手法も導入し、TAPTの目的を変更して文脈化された感情表現を学習する。実験の結果,P-TAPTは低リソース環境下ではTAPTよりも優れていた。この文献の先行研究と比較すると、トップラインシステムはIEMOCAPの最先端性能よりも7.4%の精度(UA)が絶対的に向上した。私たちのコードは公開されています。

関連論文リスト

Adaptive Prompt: Unlocking the Power of Visual Prompt Tuning [27.703316805290843]
Visual Prompt Tuning (VPT)は、トレーニング済みの視覚モデルを下流タスクに適応するための強力な方法として登場した。入力の適応関数としてプロンプトを再定義する新しい世代のプロンプトであるVisual Adaptive Prompt Tuning (VAPT)を提案する。我々の理論解析は,VAPTが最適な試料効率を実現することを示す。
論文参考訳（メタデータ） (2025-01-31T07:41:06Z)
Enhancing Audiovisual Speech Recognition through Bifocal Preference Optimization [59.1277150358203]
実世界のビデオの音声認識精度を向上させるために、選好最適化手法を提案する。まず、AV-ASRで発生した一般的なエラーを2つの焦点からシミュレーションすることで、嗜好データを生成する。次に,AV-ASRモデルを改善するために,入力側と出力側の両方を優先してBPO-AVASRを提案する。
論文参考訳（メタデータ） (2024-12-26T00:26:45Z)
Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2024-11-02T18:18:35Z)
Exploring Self-Supervised Multi-view Contrastive Learning for Speech Emotion Recognition with Limited Annotations [1.6008229267455227]
本稿では,大規模な音声モデルから生成されるものを含む,さまざまな音声表現に適用可能なマルチビューSSL事前学習手法を提案する。我々の実験は、wav2vec 2.0に基づくスペクトルおよびパラ言語の特徴に基づいて、提案したフレームワークが、Unweighted Average Recallにおいて最大10%SER性能を向上することを示した。
論文参考訳（メタデータ） (2024-06-12T06:06:55Z)
Continued Pretraining for Domain Adaptation of Wav2vec2.0 in Automatic Speech Recognition for Elementary Math Classroom Settings [4.266613351203219]
We study the effective of continued pretraining (CPT) in adapting Wav2vec2.0 to the classroom domain。この点においてCPTは強力なツールであり、Wav2vec2.0ベースのモデルのワードエラー率(WER)を10%以上削減することを示す。
論文参考訳（メタデータ） (2024-05-15T06:59:33Z)
Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。 DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文参考訳（メタデータ） (2024-03-18T14:05:52Z)
VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。 VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。 ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文参考訳（メタデータ） (2024-01-15T17:28:37Z)
AutoVP: An Automated Visual Prompting Framework and Benchmark [66.5618543577204]
ビジュアルプロンプト(VP)は、様々な下流画像分類タスクを解決するために、事前訓練された視覚モデルを適用するための、パラメータ効率の高い微調整手法である。本稿では,VP設計選択を自動化するエンドツーエンド拡張可能なフレームワークであるAutoVPと,12のダウンストリーム画像分類タスクを提案する。実験の結果,AutoVPは,現在よく知られているVP手法よりもかなり優れていることがわかった。
論文参考訳（メタデータ） (2023-10-12T14:55:31Z)
E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2023-07-25T19:03:21Z)
Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition [32.61769580342906]
我々は、wav2vec 2.0にフォーカスし、モデルの性能と効率の両方に影響を与えるいくつかのアーキテクチャ設計を定式化します。本稿では,性能と効率の両面で大幅な改善を施した事前学習型モデルアーキテクチャであるSEW(Squeezed and Efficient Wav2vec)を紹介する。
論文参考訳（メタデータ） (2021-09-14T17:58:09Z)
Emotion Recognition from Speech Using Wav2vec 2.0 Embeddings [16.829474982595837]
音声認識のための伝達学習手法を提案する。トレーニング前のモデルからいくつかのレイヤーの出力を、下流モデルとの共同学習可能なウェイトで組み合わせます。提案手法をIEMOCAPとRAVDESSの2つの標準感情データベース上で評価し,結果よりも優れた性能を示した。
論文参考訳（メタデータ） (2021-04-08T04:31:58Z)
On Scaling Contrastive Representations for Low-Resource Speech Recognition [12.447872366013224]
計算要求のwav2vec 2.0フレームワークから,固定表現に対して最先端の音声認識器を訓練する。極端に低リソース環境では、wav2vec 2.0は前者よりも劣っている。
論文参考訳（メタデータ） (2021-02-01T13:58:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。