論文の概要: Active Learning with Task Adaptation Pre-training for Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2405.00307v1
- Date: Wed, 1 May 2024 04:05:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 16:37:17.236451
- Title: Active Learning with Task Adaptation Pre-training for Speech Emotion Recognition
- Title(参考訳): タスク適応型事前学習による音声感情認識のためのアクティブラーニング
- Authors: Dongyuan Li, Ying Zhang, Yusong Wang, Funakoshi Kataro, Manabu Okumura,
- Abstract要約: 音声感情認識(SER)はその幅広い応用により注目を集めている。
我々は,textscAfterと呼ばれる,SERのためのアクティブラーニング(AL)に基づく微調整フレームワークを提案する。
提案手法は精度を8.45%向上し,時間消費を79%削減する。
- 参考スコア(独自算出の注目度): 17.59356583727259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech emotion recognition (SER) has garnered increasing attention due to its wide range of applications in various fields, including human-machine interaction, virtual assistants, and mental health assistance. However, existing SER methods often overlook the information gap between the pre-training speech recognition task and the downstream SER task, resulting in sub-optimal performance. Moreover, current methods require much time for fine-tuning on each specific speech dataset, such as IEMOCAP, which limits their effectiveness in real-world scenarios with large-scale noisy data. To address these issues, we propose an active learning (AL)-based fine-tuning framework for SER, called \textsc{After}, that leverages task adaptation pre-training (TAPT) and AL methods to enhance performance and efficiency. Specifically, we first use TAPT to minimize the information gap between the pre-training speech recognition task and the downstream speech emotion recognition task. Then, AL methods are employed to iteratively select a subset of the most informative and diverse samples for fine-tuning, thereby reducing time consumption. Experiments demonstrate that our proposed method \textsc{After}, using only 20\% of samples, improves accuracy by 8.45\% and reduces time consumption by 79\%. The additional extension of \textsc{After} and ablation studies further confirm its effectiveness and applicability to various real-world scenarios. Our source code is available on Github for reproducibility. (https://github.com/Clearloveyuan/AFTER).
- Abstract(参考訳): 音声感情認識(SER)は、ヒューマン・マシン・インタラクション、仮想アシスタント、メンタルヘルス・アシストなど様々な分野で広く応用されているため、注目を集めている。
しかし、既存のSER手法では、事前学習した音声認識タスクと下流のSERタスクとの間の情報ギャップを無視することが多く、その結果、サブ最適性能が得られる。
さらに、現在の手法では、IEMOCAPのような特定の音声データセットの微調整に多くの時間を要する。
これらの課題に対処するために,タスク適応事前学習(TAPT)とAL手法を活用して性能と効率を向上させる,SERのためのアクティブラーニング(AL)に基づくファインチューニングフレームワーク(textsc{After})を提案する。
具体的には、まずTAPTを用いて、事前学習した音声認識タスクと下流の音声感情認識タスクとの間の情報ギャップを最小化する。
そして、AL法を用いて、最も情報に富んだ多種多様なサンプルのサブセットを反復的に選抜して微調整し、時間消費を減少させる。
実験の結果,提案手法は試料の20 %しか使用せず,精度を8.45 %改善し,時間消費を79 %削減できることがわかった。
textsc{After} のさらなる拡張とアブレーション研究により、様々な実世界のシナリオに対するその有効性と適用性がさらに確認された。
私たちのソースコードは、再現性のためにGithubで公開されています。
(https://github.com/Clearloveyuan/AFTER)。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Efficient Cross-Task Prompt Tuning for Few-Shot Conversational Emotion
Recognition [6.988000604392974]
Emotion Recognition in Conversation (ERC) は感情認識型共感機械の開発において重要であるため、広く研究されている。
対話型感情認識のためのCTPT(Cross-Task Prompt Tuning)と呼ばれる微分自由度最適化手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T06:46:03Z) - Active Learning Based Fine-Tuning Framework for Speech Emotion
Recognition [20.28850074164053]
音声感情認識(SER)は、人間と機械の相互作用におけるその応用に注目が集まっている。
既存のSER手法では、事前学習した音声認識タスクと下流SERタスクとの間の情報ギャップを無視し、サブ最適性能をもたらす。
本稿では,タスク適応事前学習(TAPT)とAL手法を活用して性能と効率を向上させる,SERのためのアクティブラーニング(AL)ベースのファインチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-30T07:23:29Z) - TEMPERA: Test-Time Prompting via Reinforcement Learning [57.48657629588436]
強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。
従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。
本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
論文 参考訳(メタデータ) (2022-11-21T22:38:20Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Pretext Tasks selection for multitask self-supervised speech
representation learning [23.39079406674442]
提案手法では,候補群の中からプレテキストタスク群を選択する手法を提案する。
話者認識と自動音声認識の実験により,我々のアプローチが検証された。
論文 参考訳(メタデータ) (2021-07-01T16:36:29Z) - Weighted Training for Cross-Task Learning [71.94908559469475]
クロスタスク学習のための重み付きトレーニングアルゴリズムであるTarget-Aware Weighted Training (TAWT)を紹介する。
TAWTは実装が容易で、計算効率が高く、ハイパーパラメータチューニングがほとんど必要とせず、漸近的でない学習理論の保証を享受できることを示す。
副産物として、提案された表現に基づくタスク距離は、クロスタスク学習のいくつかの重要な側面について理論的に原則化された方法で推論することができる。
論文 参考訳(メタデータ) (2021-05-28T20:27:02Z) - Two-stage Textual Knowledge Distillation for End-to-End Spoken Language
Understanding [18.275646344620387]
本研究では,事前学習と微調整の2つのモードの発話レベル表現と予測ロジットを一致させる2段階のテキスト知識蒸留法を提案する。
我々は、Fluent Speech Commandsの最先端を推し進め、完全なデータセット設定で99.7%のテスト精度、10%サブセットで99.5%を達成した。
論文 参考訳(メタデータ) (2020-10-25T12:36:05Z) - A Transfer Learning Method for Speech Emotion Recognition from Automatic
Speech Recognition [0.0]
本稿では,時間遅延ニューラルネットワークアーキテクチャに基づく音声感情認識における伝達学習手法を示す。
5倍のクロスバリデーションを用いて,最先端技術と比較して高い精度を実現する。
論文 参考訳(メタデータ) (2020-08-06T20:37:22Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。