論文の概要: LanSER: Language-Model Supported Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2309.03978v1
- Date: Thu, 7 Sep 2023 19:21:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 16:56:45.447447
- Title: LanSER: Language-Model Supported Speech Emotion Recognition
- Title(参考訳): LanSER:言語モデルによる音声感情認識
- Authors: Taesik Gong, Josh Belanich, Krishna Somandepalli, Arsha Nagrani, Brian
Eoff, Brendan Jou
- Abstract要約: 本稿では,学習済みの大規模言語モデルを用いて弱い感情ラベルを推定することにより,ラベルなしデータの利用を可能にするLanSERを提案する。
分類学に制約された弱いラベルを推定するために、自動音声認識により抽出された音声の書き起こしに対して、最も深いスコアを持つ感情ラベルを選択するテキスト・エンタテインメント・アプローチを用いる。
実験結果から, 従来のSERデータセットのベースラインモデルでは, 精度が向上し, ラベル効率が向上した。
- 参考スコア(独自算出の注目度): 25.597250907836152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech emotion recognition (SER) models typically rely on costly
human-labeled data for training, making scaling methods to large speech
datasets and nuanced emotion taxonomies difficult. We present LanSER, a method
that enables the use of unlabeled data by inferring weak emotion labels via
pre-trained large language models through weakly-supervised learning. For
inferring weak labels constrained to a taxonomy, we use a textual entailment
approach that selects an emotion label with the highest entailment score for a
speech transcript extracted via automatic speech recognition. Our experimental
results show that models pre-trained on large datasets with this weak
supervision outperform other baseline models on standard SER datasets when
fine-tuned, and show improved label efficiency. Despite being pre-trained on
labels derived only from text, we show that the resulting representations
appear to model the prosodic content of speech.
- Abstract(参考訳): 音声感情認識(ser: speech emotion recognition)モデルは、トレーニングのための高価な人間ラベルデータに依存しているため、大規模な音声データセットやニュアンス感情分類へのスケーリングが難しい。
本稿では,弱教師付き学習を通じて,事前学習された大規模言語モデルを通じて弱感情ラベルを推測することにより,ラベルなしデータの利用を可能にする手法であるlanserを提案する。
分類学に制約された弱いラベルを推測するために、自動音声認識によって抽出された音声写本に対して、最も制限スコアの高い感情ラベルを選択するテクスト的包含アプローチを用いる。
実験の結果,この弱い教師付きデータセットで事前学習したモデルが,標準的なserデータセットのベースラインモデルよりも優れており,ラベル効率が向上していることがわかった。
テキストのみ由来のラベルを予め学習したものの,結果表現が音声の韻律的コンテンツをモデル化しているように見える。
関連論文リスト
- Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - Vision-language Assisted Attribute Learning [53.60196963381315]
大規模な属性ラベリングは通常不完全で部分的である。
既存の属性学習手法は、欠落したラベルを否定的な扱いをすることが多い。
利用可能な視覚言語知識を活用して、モデル学習の強化に欠落しているラベルを明確に明らかにする。
論文 参考訳(メタデータ) (2023-12-12T06:45:19Z) - Context Unlocks Emotions: Text-based Emotion Classification Dataset
Auditing with Large Language Models [23.670143829183104]
テキストデータに文脈情報がないため、テキストベースの感情分類データセットのアノテーションプロセスは困難である。
本稿では,このような文脈情報を強化するための促進戦略を動機付けるために,テキストコンテキストの形式的定義を提案する。
提案手法は, 経験的, 人的評価的両面から, 入力と人的アノテートラベルのアライメントを改善する。
論文 参考訳(メタデータ) (2023-11-06T21:34:49Z) - Self-Supervised Representation Learning for Online Handwriting Text
Classification [0.8594140167290099]
本稿では,日本語と中国語の個人によるオンライン筆跡から情報表現を抽出するための事前学習の前提として,新しいストロークマスキング(POSM)を提案する。
抽出した表現の質を評価するために,本質的評価法と外生的評価法の両方を用いる。
事前訓練されたモデルは、作家の識別、性別分類、手書きの分類といったタスクにおいて、最先端の結果を達成するために微調整される。
論文 参考訳(メタデータ) (2023-10-10T14:07:49Z) - Leveraging Label Information for Multimodal Emotion Recognition [22.318092635089464]
マルチモーダル感情認識(MER)は、音声とテキスト情報を組み合わせることで、与えられた表現の感情状態を検出することを目的としている。
ラベル情報を利用した新しいMER手法を提案する。
我々は,ラベルを意識したテキストと音声表現を融合して感情分類を行うための新しいラベル誘導注意融合モジュールを考案した。
論文 参考訳(メタデータ) (2023-09-05T10:26:32Z) - Self-Supervised Learning for Audio-Based Emotion Recognition [1.7598252755538808]
自己教師付き学習は、教師付きラベルの不足にもかかわらず学習できる方法のファミリーである。
我々は,CMU-MOSEIの音響モダリティからの感情の分類に自己教師付き学習事前学習を適用した。
自己教師型学習は、すべてのメトリクスにわたるモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-07-23T14:40:50Z) - Detecting Label Errors using Pre-Trained Language Models [37.82128817976385]
学習済みの大規模言語モデルでは,データセットのラベルエラーを識別する能力が非常に高いことを示す。
クラウドソーシングされたデータからリアルで人間指向のラベルノイズを生成するための新しい手法を提案し,この手法の有効性をTweetNLP上で実証する。
論文 参考訳(メタデータ) (2022-05-25T11:59:39Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。