Fugu-MT 論文翻訳(概要): Frame-level emotional state alignment method for speech emotion recognition

論文の概要: Frame-level emotional state alignment method for speech emotion recognition

arxiv url: http://arxiv.org/abs/2312.16383v1
Date: Wed, 27 Dec 2023 03:07:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-29 19:37:29.611014
Title: Frame-level emotional state alignment method for speech emotion recognition
Title（参考訳）: フレームレベルの感情状態アライメント法による音声認識
Authors: Qifei Li, Yingming Gao, Cong Wang, Yayue Deng, Jinlong Xue, Yichen Han, Ya Li
Abstract要約: 音声感情認識(SER)システムは、人間とコンピュータの相互作用において人間の感情状態を認識することを目的としている。 SERのためのフレームレベルの感情状態アライメント手法を提案する。
参考スコア（独自算出の注目度）: 16.36945909067725
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speech emotion recognition (SER) systems aim to recognize human emotional state during human-computer interaction. Most existing SER systems are trained based on utterance-level labels. However, not all frames in an audio have affective states consistent with utterance-level label, which makes it difficult for the model to distinguish the true emotion of the audio and perform poorly. To address this problem, we propose a frame-level emotional state alignment method for SER. First, we fine-tune HuBERT model to obtain a SER system with task-adaptive pretraining (TAPT) method, and extract embeddings from its transformer layers to form frame-level pseudo-emotion labels with clustering. Then, the pseudo labels are used to pretrain HuBERT. Hence, the each frame output of HuBERT has corresponding emotional information. Finally, we fine-tune the above pretrained HuBERT for SER by adding an attention layer on the top of it, which can focus only on those frames that are emotionally more consistent with utterance-level label. The experimental results performed on IEMOCAP indicate that our proposed method performs better than state-of-the-art (SOTA) methods.
Abstract（参考訳）: 音声感情認識(ser)システムは、人間とコンピュータの対話中に人間の感情状態を認識することを目的としている。既存のサーシステムは発話レベルラベルに基づいて訓練されている。しかし、音声中の全てのフレームが発話レベルラベルと一致した感情状態を持つわけではないため、モデルが音声の真の感情を識別し、パフォーマンスを損なうことが困難である。そこで本研究では,serのフレームレベル感情状態アライメント手法を提案する。まず,タスク適応事前学習(TAPT)法によるSERシステムを取得し,その変換器層から埋め込みを抽出し,クラスタリングによるフレームレベルの擬似感情ラベルを生成する。次に、擬似ラベルを使用して、HuBERTをプリトレーニングする。したがって、HuBERTの各フレーム出力は対応する感情情報を有する。最後に、上面に注意層を追加することで、上記の事前学習されたhubert for serを微調整し、発話レベルのラベルと感情的に一貫性のあるフレームのみに焦点を当てます。 IEMOCAPで行った実験結果から,提案手法は最先端(SOTA)法よりも優れた性能を示した。

関連論文リスト

Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文参考訳（メタデータ） (2025-04-25T05:28:21Z)
Attention-based Interactive Disentangling Network for Instance-level Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文参考訳（メタデータ） (2023-12-29T08:06:45Z)
Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文参考訳（メタデータ） (2023-12-19T08:47:50Z)
LanSER: Language-Model Supported Speech Emotion Recognition [25.597250907836152]
本稿では,学習済みの大規模言語モデルを用いて弱い感情ラベルを推定することにより,ラベルなしデータの利用を可能にするLanSERを提案する。分類学に制約された弱いラベルを推定するために、自動音声認識により抽出された音声の書き起こしに対して、最も深いスコアを持つ感情ラベルを選択するテキスト・エンタテインメント・アプローチを用いる。実験結果から, 従来のSERデータセットのベースラインモデルでは, 精度が向上し, ラベル効率が向上した。
論文参考訳（メタデータ） (2023-09-07T19:21:08Z)
Leveraging Label Information for Multimodal Emotion Recognition [22.318092635089464]
マルチモーダル感情認識(MER)は、音声とテキスト情報を組み合わせることで、与えられた表現の感情状態を検出することを目的としている。ラベル情報を利用した新しいMER手法を提案する。我々は,ラベルを意識したテキストと音声表現を融合して感情分類を行うための新しいラベル誘導注意融合モジュールを考案した。
論文参考訳（メタデータ） (2023-09-05T10:26:32Z)
The Emotion is Not One-hot Encoding: Learning with Grayscale Label for Emotion Recognition in Conversation [0.0]
会話における感情認識(ERC)では、過去の文脈を考慮し、現在の発話の感情を予測する。グレースケールラベルを構築するためのいくつかの手法を導入し、各手法が感情認識性能を向上させることを確認する。
論文参考訳（メタデータ） (2022-06-15T08:14:42Z)
Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。本稿では,感情の強さを明示的に表現し,制御することを目的とする。本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文参考訳（メタデータ） (2022-01-10T02:11:25Z)
EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文参考訳（メタデータ） (2021-06-17T08:34:21Z)
Reinforcement Learning for Emotional Text-to-Speech Synthesis with Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。 i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。 i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文参考訳（メタデータ） (2021-04-03T13:52:47Z)
Seen and Unseen emotional style transfer for voice conversion with a new emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2020-10-28T07:16:18Z)
A Generalized Zero-Shot Framework for Emotion Recognition from Body Gestures [5.331671302839567]
本稿では,新しい身体ジェスチャーの感情状態を推測する汎用ゼロショット学習(GZSL)フレームワークを提案する。このフレームワークは従来の感情分類法や最先端のゼロショット学習法よりもはるかに優れている。
論文参考訳（メタデータ） (2020-10-13T13:16:38Z)
Learning Unseen Emotions from Gestures via Semantically-Conditioned Zero-Shot Perception with Adversarial Autoencoders [25.774235606472875]
本稿では,3次元モーションキャプチャー・ジェスチャ・シーケンスと自然言語知覚感情項のベクトル化表現とを関連付ける,対角的自己エンコーダに基づく表現学習を提案する。我々は、既知の感情用語に注釈付けされたジェスチャーと、どんな感情にも注釈付けされていないジェスチャーを組み合わせることで、手法を訓練する。
論文参考訳（メタデータ） (2020-09-18T15:59:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。