論文の概要: Active Learning Based Fine-Tuning Framework for Speech Emotion
Recognition
- arxiv url: http://arxiv.org/abs/2310.00283v1
- Date: Sat, 30 Sep 2023 07:23:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 05:19:03.322751
- Title: Active Learning Based Fine-Tuning Framework for Speech Emotion
Recognition
- Title(参考訳): アクティブ学習による音声感情認識のためのファインチューニングフレームワーク
- Authors: Dongyuan Li, Yusong Wang, Kotaro Funakoshi, Manabu Okumura
- Abstract要約: 音声感情認識(SER)は、人間と機械の相互作用におけるその応用に注目が集まっている。
既存のSER手法では、事前学習した音声認識タスクと下流SERタスクとの間の情報ギャップを無視し、サブ最適性能をもたらす。
本稿では,タスク適応事前学習(TAPT)とAL手法を活用して性能と効率を向上させる,SERのためのアクティブラーニング(AL)ベースのファインチューニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 20.28850074164053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech emotion recognition (SER) has drawn increasing attention for its
applications in human-machine interaction. However, existing SER methods ignore
the information gap between the pre-training speech recognition task and the
downstream SER task, leading to sub-optimal performance. Moreover, they require
much time to fine-tune on each specific speech dataset, restricting their
effectiveness in real-world scenes with large-scale noisy data. To address
these issues, we propose an active learning (AL) based Fine-Tuning framework
for SER that leverages task adaptation pre-training (TAPT) and AL methods to
enhance performance and efficiency. Specifically, we first use TAPT to minimize
the information gap between the pre-training and the downstream task. Then, AL
methods are used to iteratively select a subset of the most informative and
diverse samples for fine-tuning, reducing time consumption. Experiments
demonstrate that using only 20\%pt. samples improves 8.45\%pt. accuracy and
reduces 79\%pt. time consumption.
- Abstract(参考訳): 音声感情認識(ser)は、人間と機械の相互作用におけるその応用に注目が集まっている。
しかし、既存のSER手法では、事前学習した音声認識タスクと下流SERタスクとの間の情報ギャップを無視し、準最適性能をもたらす。
さらに、個々の音声データセットを微調整するのに多くの時間を必要とし、大規模ノイズデータによる実世界のシーンでの効率を制限する。
これらの課題に対処するために,タスク適応事前学習(TAPT)とAL手法を活用した能動学習(AL)に基づくSERのためのファインチューニングフレームワークを提案する。
具体的には、まずTAPTを使用して、事前学習と下流タスク間の情報ギャップを最小化する。
次に、alメソッドは、最も有益で多様なサンプルのサブセットを反復的に選択して微調整し、時間の消費を減らすために使用される。
実験では20 %ptしか使用していない。
サンプルは 8.45\%pt を改善する。
精度は79\%ptである。
時間の消費です
関連論文リスト
- Efficient Cross-Task Prompt Tuning for Few-Shot Conversational Emotion
Recognition [6.988000604392974]
Emotion Recognition in Conversation (ERC) は感情認識型共感機械の開発において重要であるため、広く研究されている。
対話型感情認識のためのCTPT(Cross-Task Prompt Tuning)と呼ばれる微分自由度最適化手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T06:46:03Z) - Revisit Few-shot Intent Classification with PLMs: Direct Fine-tuning vs.
Continual Pre-training [19.299285312415734]
少量のラベル付きデータのみを使用して、基礎となる意図に基づいて発話を分類するために、深層学習モデルを訓練する。
この課題に対するPLMの過度な適合問題は、予想されるほど深刻ではないため、継続事前学習は必須ではない可能性がある。
限られた利用可能なデータの利用を最大化するために,コンテキスト拡張法を提案し,逐次自己蒸留を利用して性能を向上させる。
論文 参考訳(メタデータ) (2023-06-08T15:26:52Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Pretext Tasks selection for multitask self-supervised speech
representation learning [23.39079406674442]
提案手法では,候補群の中からプレテキストタスク群を選択する手法を提案する。
話者認識と自動音声認識の実験により,我々のアプローチが検証された。
論文 参考訳(メタデータ) (2021-07-01T16:36:29Z) - Weighted Training for Cross-Task Learning [71.94908559469475]
クロスタスク学習のための重み付きトレーニングアルゴリズムであるTarget-Aware Weighted Training (TAWT)を紹介する。
TAWTは実装が容易で、計算効率が高く、ハイパーパラメータチューニングがほとんど必要とせず、漸近的でない学習理論の保証を享受できることを示す。
副産物として、提案された表現に基づくタスク距離は、クロスタスク学習のいくつかの重要な側面について理論的に原則化された方法で推論することができる。
論文 参考訳(メタデータ) (2021-05-28T20:27:02Z) - Recognizing More Emotions with Less Data Using Self-supervised Transfer
Learning [0.0]
本稿では,音声認識のための新しい伝達学習手法を提案する。
感情のクラス毎の125のサンプルでは、8倍のデータでトレーニングされた強いベースラインよりも高い精度を達成できたのです。
論文 参考訳(メタデータ) (2020-11-11T06:18:31Z) - A Transfer Learning Method for Speech Emotion Recognition from Automatic
Speech Recognition [0.0]
本稿では,時間遅延ニューラルネットワークアーキテクチャに基づく音声感情認識における伝達学習手法を示す。
5倍のクロスバリデーションを用いて,最先端技術と比較して高い精度を実現する。
論文 参考訳(メタデータ) (2020-08-06T20:37:22Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。