論文の概要: emotion2vec: Self-Supervised Pre-Training for Speech Emotion
Representation
- arxiv url: http://arxiv.org/abs/2312.15185v1
- Date: Sat, 23 Dec 2023 07:46:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 19:27:03.770138
- Title: emotion2vec: Self-Supervised Pre-Training for Speech Emotion
Representation
- Title(参考訳): emotion2vec: 音声感情表現のための自己教師付き事前学習
- Authors: Ziyang Ma, Zhisheng Zheng, Jiaxin Ye, Jinchao Li, Zhifu Gao, Shiliang
Zhang, Xie Chen
- Abstract要約: 普遍的な音声感情表現モデルである感情2vecを提案する。
感情2vecは自己監督型オンライン蒸留を通じてラベルなしの感情データに基づいて事前訓練される。
最先端の訓練済みユニバーサルモデルや感情スペシャリストモデルよりも優れています。
- 参考スコア(独自算出の注目度): 42.29118614670941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose emotion2vec, a universal speech emotion representation model.
emotion2vec is pre-trained on open-source unlabeled emotion data through
self-supervised online distillation, combining utterance-level loss and
frame-level loss during pre-training. emotion2vec outperforms state-of-the-art
pre-trained universal models and emotion specialist models by only training
linear layers for the speech emotion recognition task on the mainstream IEMOCAP
dataset. In addition, emotion2vec shows consistent improvements among 10
different languages of speech emotion recognition datasets. emotion2vec also
shows excellent results on other emotion tasks, such as song emotion
recognition, emotion prediction in conversation, and sentiment analysis.
Comparison experiments, ablation experiments, and visualization comprehensively
demonstrate the universal capability of the proposed emotion2vec. To the best
of our knowledge, emotion2vec is the first universal representation model in
various emotion-related tasks, filling a gap in the field.
- Abstract(参考訳): 汎用音声感情表現モデルであるemotion2vecを提案する。
emotion2vecは、自己教師付きオンライン蒸留を通じて、オープンソースの無ラベル感情データに基づいて事前学習され、発話レベルの損失と、事前訓練中のフレームレベルの損失を組み合わせる。
感情2vecは、主流のIEMOCAPデータセット上での音声感情認識タスクの線形層のみをトレーニングすることで、最先端の訓練済みユニバーサルモデルと感情スペシャリストモデルより優れている。
さらに、感情2vecは、音声感情認識データセットの10言語間で一貫した改善を示す。
emotion2vecはまた、歌の感情認識、会話における感情予測、感情分析など、他の感情タスクに対して優れた結果を示す。
比較実験、アブレーション実験、可視化は、提案するemotion2vecの普遍的能力を包括的に実証する。
われわれの知る限り、emotion2vecは様々な感情に関連したタスクにおける最初の普遍表現モデルであり、この分野のギャップを埋めている。
関連論文リスト
- EmoSphere-TTS: Emotional Style and Intensity Modeling via Spherical Emotion Vector for Controllable Emotional Text-to-Speech [34.03787613163788]
EmoSphere-TTSは球面感情ベクトルを用いて表現的感情音声を合成し、合成音声の感情的スタイルと強度を制御する。
マルチアスペクト特性を反映して生成した音声の品質を向上させるための2つの条件付き対向ネットワークを提案する。
論文 参考訳(メタデータ) (2024-06-12T01:40:29Z) - Daisy-TTS: Simulating Wider Spectrum of Emotions via Prosody Embedding Decomposition [12.605375307094416]
構造モデルに基づく感情の幅広いスペクトルをシミュレートする感情的テキスト・音声設計を提案する。
提案したデザインであるDaisy-TTSは、感情のプロキシとして感情的に分離可能な韻律埋め込みを学習するための韻律エンコーダを組み込んでいる。
論文 参考訳(メタデータ) (2024-02-22T13:15:49Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Using Knowledge-Embedded Attention to Augment Pre-trained Language
Models for Fine-Grained Emotion Recognition [0.0]
我々は,事前学習した自己意識モデルに外部知識を導入することで,微粒な感情認識を改善することに集中する。
結果と誤差解析は,複数のデータセットで過去のモデルより優れていた。
論文 参考訳(メタデータ) (2021-07-31T09:41:44Z) - A Circular-Structured Representation for Visual Emotion Distribution
Learning [82.89776298753661]
視覚的感情分布学習に先立つ知識を活用するために,身近な円形構造表現を提案する。
具体的には、まず感情圏を構築し、その内にある感情状態を統一する。
提案した感情圏では、各感情分布は3つの属性で定義される感情ベクトルで表される。
論文 参考訳(メタデータ) (2021-06-23T14:53:27Z) - Infusing Multi-Source Knowledge with Heterogeneous Graph Neural Network
for Emotional Conversation Generation [25.808037796936766]
実世界の会話では,マルチソース情報から感情を直感的に知覚する。
感情的会話生成のための異種グラフモデルを提案する。
実験結果は,本モデルがマルチソース知識から感情を効果的に知覚できることを示した。
論文 参考訳(メタデータ) (2020-12-09T06:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。