論文の概要: Speech Emotion Diarization: Which Emotion Appears When?
- arxiv url: http://arxiv.org/abs/2306.12991v2
- Date: Fri, 20 Oct 2023 11:31:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 03:34:00.681067
- Title: Speech Emotion Diarization: Which Emotion Appears When?
- Title(参考訳): 音声感情ダイアリゼーション:どの感情がいつ現れるか?
- Authors: Yingzhi Wang, Mirco Ravanelli, Alya Yacoubi
- Abstract要約: 音声感情のきめ細かい性質を反映した音声感情ダイアリゼーション(SED)を提案する。
話者ダイアリゼーションが「誰がいつ話すのか?」という問いに答えるのと同じように、音声感情ダイアリゼーションは「いつ感情が現れるのか?」という問いに答える。
- 参考スコア(独自算出の注目度): 11.84193589275529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech Emotion Recognition (SER) typically relies on utterance-level
solutions. However, emotions conveyed through speech should be considered as
discrete speech events with definite temporal boundaries, rather than
attributes of the entire utterance. To reflect the fine-grained nature of
speech emotions, we propose a new task: Speech Emotion Diarization (SED). Just
as Speaker Diarization answers the question of "Who speaks when?", Speech
Emotion Diarization answers the question of "Which emotion appears when?". To
facilitate the evaluation of the performance and establish a common benchmark
for researchers, we introduce the Zaion Emotion Dataset (ZED), an openly
accessible speech emotion dataset that includes non-acted emotions recorded in
real-life conditions, along with manually-annotated boundaries of emotion
segments within the utterance. We provide competitive baselines and open-source
the code and the pre-trained models.
- Abstract(参考訳): 音声感情認識(ser)は通常、発話レベルのソリューションに依存する。
しかし, 発話を通して伝達される感情は, 発話全体の属性ではなく, 時間的境界が明確である個別の発話イベントとみなすべきである。
音声感情のきめ細かい性質を反映するため,音声感情ダイアリゼーション(SED)という新たな課題を提案する。
話者ダイアリゼーションが「誰がいつ話すか」という問いに答えるのと同じように、スピーチ感情ダイアリゼーションは「どの感情が現れるか」という問いに答える。
実生活環境下で記録された非活動感情と、発話中の感情セグメントを手動で注釈付けした境界を含む、オープンアクセス可能な音声感情データセットであるザイオン感情データセット(ZED)を導入する。
競争力のあるベースラインを提供し、コードと事前訓練されたモデルをオープンソース化します。
関連論文リスト
- Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Where are We in Event-centric Emotion Analysis? Bridging Emotion Role
Labeling and Appraisal-based Approaches [10.736626320566707]
テキストにおける感情分析という用語は、様々な自然言語処理タスクを仮定する。
感情と出来事は2つの方法で関連していると我々は主張する。
我々は,NLPモデルに心理的評価理論を組み込んで事象を解釈する方法について議論する。
論文 参考訳(メタデータ) (2023-09-05T09:56:29Z) - In-the-wild Speech Emotion Conversion Using Disentangled Self-Supervised
Representations and Neural Vocoder-based Resynthesis [15.16865739526702]
本稿では,自己教師ネットワークを用いて発話の語彙的,話者的,感情的な内容を切り離す手法を提案する。
次に、HiFiGANボコーダを用いて、不整合表現をターゲット感情の音声信号に再合成する。
その結果,提案手法は入力音声の感情内容に適度に適応し,対象感情に対して自然な音声を合成できることがわかった。
論文 参考訳(メタデータ) (2023-06-02T21:02:51Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - Experiencer-Specific Emotion and Appraisal Prediction [13.324006587838523]
NLPにおける感情分類は、文章や段落などの感情をテキストに割り当てる。
イベントの経験に焦点を合わせ、各イベントに感情(もしあれば)を割り当てます。
経験者の感情と評価のモデルが経験者に依存しないベースラインより優れています。
論文 参考訳(メタデータ) (2022-10-21T16:04:27Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。