Fugu-MT 論文翻訳(概要): Active Learning Based Fine-Tuning Framework for Speech Emotion Recognition

論文の概要: Active Learning Based Fine-Tuning Framework for Speech Emotion Recognition

arxiv url: http://arxiv.org/abs/2310.00283v1
Date: Sat, 30 Sep 2023 07:23:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 05:19:03.322751
Title: Active Learning Based Fine-Tuning Framework for Speech Emotion Recognition
Title（参考訳）: アクティブ学習による音声感情認識のためのファインチューニングフレームワーク
Authors: Dongyuan Li, Yusong Wang, Kotaro Funakoshi, Manabu Okumura
Abstract要約: 音声感情認識(SER)は、人間と機械の相互作用におけるその応用に注目が集まっている。既存のSER手法では、事前学習した音声認識タスクと下流SERタスクとの間の情報ギャップを無視し、サブ最適性能をもたらす。本稿では,タスク適応事前学習(TAPT)とAL手法を活用して性能と効率を向上させる,SERのためのアクティブラーニング(AL)ベースのファインチューニングフレームワークを提案する。
参考スコア（独自算出の注目度）: 20.28850074164053
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speech emotion recognition (SER) has drawn increasing attention for its applications in human-machine interaction. However, existing SER methods ignore the information gap between the pre-training speech recognition task and the downstream SER task, leading to sub-optimal performance. Moreover, they require much time to fine-tune on each specific speech dataset, restricting their effectiveness in real-world scenes with large-scale noisy data. To address these issues, we propose an active learning (AL) based Fine-Tuning framework for SER that leverages task adaptation pre-training (TAPT) and AL methods to enhance performance and efficiency. Specifically, we first use TAPT to minimize the information gap between the pre-training and the downstream task. Then, AL methods are used to iteratively select a subset of the most informative and diverse samples for fine-tuning, reducing time consumption. Experiments demonstrate that using only 20\%pt. samples improves 8.45\%pt. accuracy and reduces 79\%pt. time consumption.
Abstract（参考訳）: 音声感情認識(ser)は、人間と機械の相互作用におけるその応用に注目が集まっている。しかし、既存のSER手法では、事前学習した音声認識タスクと下流SERタスクとの間の情報ギャップを無視し、準最適性能をもたらす。さらに、個々の音声データセットを微調整するのに多くの時間を必要とし、大規模ノイズデータによる実世界のシーンでの効率を制限する。これらの課題に対処するために,タスク適応事前学習(TAPT)とAL手法を活用した能動学習(AL)に基づくSERのためのファインチューニングフレームワークを提案する。具体的には、まずTAPTを使用して、事前学習と下流タスク間の情報ギャップを最小化する。次に、alメソッドは、最も有益で多様なサンプルのサブセットを反復的に選択して微調整し、時間の消費を減らすために使用される。実験では20 %ptしか使用していない。サンプルは 8.45\%pt を改善する。精度は79\%ptである。時間の消費です

関連論文リスト

Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文参考訳（メタデータ） (2024-09-30T06:29:58Z)
Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。 ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文参考訳（メタデータ） (2024-05-23T08:43:09Z)
Active Learning with Task Adaptation Pre-training for Speech Emotion Recognition [17.59356583727259]
音声感情認識(SER)はその幅広い応用により注目を集めている。我々は,textscAfterと呼ばれる,SERのためのアクティブラーニング(AL)に基づく微調整フレームワークを提案する。提案手法は精度を8.45%向上し,時間消費を79%削減する。
論文参考訳（メタデータ） (2024-05-01T04:05:29Z)
Efficient Cross-Task Prompt Tuning for Few-Shot Conversational Emotion Recognition [6.988000604392974]
Emotion Recognition in Conversation (ERC) は感情認識型共感機械の開発において重要であるため、広く研究されている。対話型感情認識のためのCTPT(Cross-Task Prompt Tuning)と呼ばれる微分自由度最適化手法を提案する。
論文参考訳（メタデータ） (2023-10-23T06:46:03Z)
Revisit Few-shot Intent Classification with PLMs: Direct Fine-tuning vs. Continual Pre-training [20.98770732015944]
少量のラベル付きデータのみを使用して、基礎となる意図に基づいて発話を分類するために、深層学習モデルを訓練する。この課題に対するPLMの過度な適合問題は、予想されるほど深刻ではないため、継続事前学習は必須ではない可能性がある。限られた利用可能なデータの利用を最大化するために,コンテキスト拡張法を提案し,逐次自己蒸留を利用して性能を向上させる。
論文参考訳（メタデータ） (2023-06-08T15:26:52Z)
Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。 IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文参考訳（メタデータ） (2022-06-04T10:08:50Z)
Improved Speech Emotion Recognition using Transfer Learning and Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。 SERの主な課題の1つは、データの不足である。本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文参考訳（メタデータ） (2021-08-05T10:39:39Z)
Weighted Training for Cross-Task Learning [71.94908559469475]
クロスタスク学習のための重み付きトレーニングアルゴリズムであるTarget-Aware Weighted Training (TAWT)を紹介する。 TAWTは実装が容易で、計算効率が高く、ハイパーパラメータチューニングがほとんど必要とせず、漸近的でない学習理論の保証を享受できることを示す。副産物として、提案された表現に基づくタスク距離は、クロスタスク学習のいくつかの重要な側面について理論的に原則化された方法で推論することができる。
論文参考訳（メタデータ） (2021-05-28T20:27:02Z)
Recognizing More Emotions with Less Data Using Self-supervised Transfer Learning [0.0]
本稿では,音声認識のための新しい伝達学習手法を提案する。感情のクラス毎の125のサンプルでは、8倍のデータでトレーニングされた強いベースラインよりも高い精度を達成できたのです。
論文参考訳（メタデータ） (2020-11-11T06:18:31Z)
A Transfer Learning Method for Speech Emotion Recognition from Automatic Speech Recognition [0.0]
本稿では,時間遅延ニューラルネットワークアーキテクチャに基づく音声感情認識における伝達学習手法を示す。 5倍のクロスバリデーションを用いて,最先端技術と比較して高い精度を実現する。
論文参考訳（メタデータ） (2020-08-06T20:37:22Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。