論文の概要: EmoNews: A Spoken Dialogue System for Expressive News Conversations
- arxiv url: http://arxiv.org/abs/2506.13894v1
- Date: Mon, 16 Jun 2025 18:16:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.197922
- Title: EmoNews: A Spoken Dialogue System for Expressive News Conversations
- Title(参考訳): EmoNews:表現型ニュース対話のための音声対話システム
- Authors: Ryuki Matsuura, Shikhar Bharadwaj, Jiarui Liu, Dhatchi Kunde Govindarajan,
- Abstract要約: 本研究では,文脈的手がかりに基づいて感情音声を制御するタスク指向音声対話システム(SDS)を開発した。
感情的SDSに対する主観評価尺度を提案し,提案システムとベースラインシステムの感情制御性能を判定する。
- 参考スコア(独自算出の注目度): 2.6036734225145133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a task-oriented spoken dialogue system (SDS) that regulates emotional speech based on contextual cues to enable more empathetic news conversations. Despite advancements in emotional text-to-speech (TTS) techniques, task-oriented emotional SDSs remain underexplored due to the compartmentalized nature of SDS and emotional TTS research, as well as the lack of standardized evaluation metrics for social goals. We address these challenges by developing an emotional SDS for news conversations that utilizes a large language model (LLM)-based sentiment analyzer to identify appropriate emotions and PromptTTS to synthesize context-appropriate emotional speech. We also propose subjective evaluation scale for emotional SDSs and judge the emotion regulation performance of the proposed and baseline systems. Experiments showed that our emotional SDS outperformed a baseline system in terms of the emotion regulation and engagement. These results suggest the critical role of speech emotion for more engaging conversations. All our source code is open-sourced at https://github.com/dhatchi711/espnet-emotional-news/tree/emo-sds/egs2/emo_news_sds/sds1
- Abstract(参考訳): 我々は,より共感的なニュース会話を可能にするために,文脈に基づく感情音声を制御するタスク指向音声対話システム(SDS)を開発した。
感情的テキスト・音声(TTS)技術の進歩にもかかわらず、SDSの包括的性質と感情的TTS研究、および社会的目標のための標準化された評価指標の欠如により、タスク指向の感情的SDSは未探索のままである。
本研究では,大きな言語モデル(LLM)に基づく感情分析システムを用いて,適切な感情を識別するための感情的SDSと,文脈に合った感情音声を合成するPromptTTSを開発することで,これらの課題に対処する。
また、感情的SDSに対する主観評価尺度を提案し、提案システムとベースラインシステムの感情制御性能を判定する。
実験の結果、感情制御とエンゲージメントの観点から、感情的SDSはベースラインシステムよりも優れていた。
以上の結果から, より活発な会話において, 発話感情が重要な役割を担っていることが示唆された。
ソースコードはすべてhttps://github.com/dhatchi711/espnet-emotional-news/tree/emo-sds/egs2/emo_news_sds/sds1でオープンソース化されています。
関連論文リスト
- EmoSpeech: A Corpus of Emotionally Rich and Contextually Detailed Speech Annotations [1.9827837167752067]
微妙な感情差を制御できるTTS(text-to-speech)システムの開発は、依然として困難な課題である。
既存の感情音声データベースは、広範囲の感情状態の取得に失敗する過度に単純化されたラベル付けスキームに悩まされることが多い。
本稿では,感情に富んだ音声セグメントを体系的に抽出し,それらに詳細な自然言語記述を付加することにより,データベース構築を目的とした新しいプロセスを提案する。
論文 参考訳(メタデータ) (2024-12-09T15:36:37Z) - Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions [37.075331767703986]
現在の感情的テキスト音声システムは、人間の感情の全スペクトルを伝達する上で困難に直面している。
本稿では,3つの感情的次元 – 快楽,覚醒,支配 – に対してフレキシブルなユーザコントロールを提供するTTSフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-25T07:16:16Z) - UMETTS: A Unified Framework for Emotional Text-to-Speech Synthesis with Multimodal Prompts [64.02363948840333]
UMETTSは、複数のモーダルからの感情的手がかりを利用して、表現力が高く感情的に共鳴する音声を生成する新しいフレームワークである。
EP-Alignは対照的な学習を用いて、テキスト、オーディオ、視覚的モダリティをまたいだ感情的特徴を整合させ、マルチモーダル情報のコヒーレントな融合を保証する。
EMI-TTSは、アライメントされた感情埋め込みと最先端のTSモデルを統合し、意図した感情を正確に反映した音声を合成する。
論文 参考訳(メタデータ) (2024-04-29T03:19:39Z) - Personality-affected Emotion Generation in Dialog Systems [67.40609683389947]
ダイアログシステムに与えられた個性に基づいて感情を生成する新しいタスクであるパーソナリティ影響感情生成を提案する。
本課題の課題,すなわち,(1)個性と感情的要因を不均一に統合し,(2)対話場面における多粒性感情情報を抽出する。
その結果,感情生成性能はマクロF1では13%,重み付きF1では5%向上することが示唆された。
論文 参考訳(メタデータ) (2024-04-03T08:48:50Z) - Enhancing Emotional Generation Capability of Large Language Models via Emotional Chain-of-Thought [50.13429055093534]
大規模言語モデル(LLM)は様々な感情認識タスクにおいて顕著な性能を示した。
本研究では,感情生成タスクにおけるLLMの性能を高めるための感情連鎖(ECoT)を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:42:10Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Analysis of impact of emotions on target speech extraction and speech
separation [30.06415464303977]
ブラインド音声分離(BSS)とターゲット音声抽出(TSE)における感情の影響について検討する。
我々は,BSSが感情に対して比較的堅牢であるのに対し,ターゲット話者の発話を識別・抽出する必要があるTSEは感情に対してはるかに敏感であることを示した。
論文 参考訳(メタデータ) (2022-08-15T09:47:13Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Simulated Annealing for Emotional Dialogue Systems [22.96717845092991]
対話生成のための特定の感情を表現するタスクについて検討する。
提案手法は,従来の最先端手法と比較して,感情の精度が12%向上したことを示す。
論文 参考訳(メタデータ) (2021-09-22T13:17:17Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。