論文の概要: Frame-level emotional state alignment method for speech emotion
recognition
- arxiv url: http://arxiv.org/abs/2312.16383v1
- Date: Wed, 27 Dec 2023 03:07:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-12-29 19:37:29.611014
- Title: Frame-level emotional state alignment method for speech emotion
recognition
- Title(参考訳): フレームレベルの感情状態アライメント法による音声認識
- Authors: Qifei Li, Yingming Gao, Cong Wang, Yayue Deng, Jinlong Xue, Yichen
Han, Ya Li
- Abstract要約: 音声感情認識(SER)システムは、人間とコンピュータの相互作用において人間の感情状態を認識することを目的としている。
SERのためのフレームレベルの感情状態アライメント手法を提案する。
- 参考スコア(独自算出の注目度): 16.36945909067725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech emotion recognition (SER) systems aim to recognize human emotional
state during human-computer interaction. Most existing SER systems are trained
based on utterance-level labels. However, not all frames in an audio have
affective states consistent with utterance-level label, which makes it
difficult for the model to distinguish the true emotion of the audio and
perform poorly. To address this problem, we propose a frame-level emotional
state alignment method for SER. First, we fine-tune HuBERT model to obtain a
SER system with task-adaptive pretraining (TAPT) method, and extract embeddings
from its transformer layers to form frame-level pseudo-emotion labels with
clustering. Then, the pseudo labels are used to pretrain HuBERT. Hence, the
each frame output of HuBERT has corresponding emotional information. Finally,
we fine-tune the above pretrained HuBERT for SER by adding an attention layer
on the top of it, which can focus only on those frames that are emotionally
more consistent with utterance-level label. The experimental results performed
on IEMOCAP indicate that our proposed method performs better than
state-of-the-art (SOTA) methods.
- Abstract(参考訳): 音声感情認識(ser)システムは、人間とコンピュータの対話中に人間の感情状態を認識することを目的としている。
既存のサーシステムは発話レベルラベルに基づいて訓練されている。
しかし、音声中の全てのフレームが発話レベルラベルと一致した感情状態を持つわけではないため、モデルが音声の真の感情を識別し、パフォーマンスを損なうことが困難である。
そこで本研究では,serのフレームレベル感情状態アライメント手法を提案する。
まず,タスク適応事前学習(TAPT)法によるSERシステムを取得し,その変換器層から埋め込みを抽出し,クラスタリングによるフレームレベルの擬似感情ラベルを生成する。
次に、擬似ラベルを使用して、HuBERTをプリトレーニングする。
したがって、HuBERTの各フレーム出力は対応する感情情報を有する。
最後に、上面に注意層を追加することで、上記の事前学習されたhubert for serを微調整し、発話レベルのラベルと感情的に一貫性のあるフレームのみに焦点を当てます。
IEMOCAPで行った実験結果から,提案手法は最先端(SOTA)法よりも優れた性能を示した。
関連論文リスト
- Beyond Global Emotion: Fine-Grained Emotional Speech Synthesis with Dynamic Word-Level Modulation [27.668177917370144]
E-TTS(Emotional text-to-speech)は、自然で信頼性の高い人間とコンピュータのインタラクションを生み出す中心である。
LLMベースのTSのための微粒な感情モデリングフレームワークであるEmo-FiLMを紹介する。
Emo-FiLMは、感情2vecから単語にフレームレベルの特徴を合わせ、単語レベルの感情アノテーションを得る。
テキストの埋め込みを直接変調することで、単語レベルの感情制御を可能にする。
論文 参考訳(メタデータ) (2025-09-20T14:26:15Z) - EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - DiEmo-TTS: Disentangled Emotion Representations via Self-Supervised Distillation for Cross-Speaker Emotion Transfer in Text-to-Speech [49.128847336227636]
音声合成における話者間感情伝達は、正確な感情モデリングのための話者非依存感情埋め込みの抽出に依存する。
本研究では,感情情報の損失を最小限に抑え,話者のアイデンティティを保持する自己教師型蒸留法であるDiEmo-TTSを提案する。
論文 参考訳(メタデータ) (2025-05-26T08:47:39Z) - UDDETTS: Unifying Discrete and Dimensional Emotions for Controllable Emotional Text-to-Speech [61.989360995528905]
制御可能な感情的TTSのための離散的感情と次元的感情を統一する普遍的なフレームワークであるUDDETTSを提案する。
このモデルは、次元的感情記述のための解釈可能なArousal-Dominance-Valence(ADV)空間を導入し、離散的な感情ラベルまたは非線形に定量化されたADV値によって駆動される感情制御をサポートする。
実験の結果, UDDETTSは3次元の線形感情制御を実現し, エンドツーエンドの感情音声合成能力に優れていた。
論文 参考訳(メタデータ) (2025-05-15T12:57:19Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - LanSER: Language-Model Supported Speech Emotion Recognition [25.597250907836152]
本稿では,学習済みの大規模言語モデルを用いて弱い感情ラベルを推定することにより,ラベルなしデータの利用を可能にするLanSERを提案する。
分類学に制約された弱いラベルを推定するために、自動音声認識により抽出された音声の書き起こしに対して、最も深いスコアを持つ感情ラベルを選択するテキスト・エンタテインメント・アプローチを用いる。
実験結果から, 従来のSERデータセットのベースラインモデルでは, 精度が向上し, ラベル効率が向上した。
論文 参考訳(メタデータ) (2023-09-07T19:21:08Z) - Leveraging Label Information for Multimodal Emotion Recognition [22.318092635089464]
マルチモーダル感情認識(MER)は、音声とテキスト情報を組み合わせることで、与えられた表現の感情状態を検出することを目的としている。
ラベル情報を利用した新しいMER手法を提案する。
我々は,ラベルを意識したテキストと音声表現を融合して感情分類を行うための新しいラベル誘導注意融合モジュールを考案した。
論文 参考訳(メタデータ) (2023-09-05T10:26:32Z) - The Emotion is Not One-hot Encoding: Learning with Grayscale Label for
Emotion Recognition in Conversation [0.0]
会話における感情認識(ERC)では、過去の文脈を考慮し、現在の発話の感情を予測する。
グレースケールラベルを構築するためのいくつかの手法を導入し、各手法が感情認識性能を向上させることを確認する。
論文 参考訳(メタデータ) (2022-06-15T08:14:42Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z) - A Generalized Zero-Shot Framework for Emotion Recognition from Body
Gestures [5.331671302839567]
本稿では,新しい身体ジェスチャーの感情状態を推測する汎用ゼロショット学習(GZSL)フレームワークを提案する。
このフレームワークは従来の感情分類法や最先端のゼロショット学習法よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-10-13T13:16:38Z) - Learning Unseen Emotions from Gestures via Semantically-Conditioned
Zero-Shot Perception with Adversarial Autoencoders [25.774235606472875]
本稿では,3次元モーションキャプチャー・ジェスチャ・シーケンスと自然言語知覚感情項のベクトル化表現とを関連付ける,対角的自己エンコーダに基づく表現学習を提案する。
我々は、既知の感情用語に注釈付けされたジェスチャーと、どんな感情にも注釈付けされていないジェスチャーを組み合わせることで、手法を訓練する。
論文 参考訳(メタデータ) (2020-09-18T15:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。