Fugu-MT 論文翻訳(概要): Evaluating and Personalizing User-Perceived Quality of Text-to-Speech Voices for Delivering Mindfulness Meditation with Different Physical Embodiments

論文の概要: Evaluating and Personalizing User-Perceived Quality of Text-to-Speech Voices for Delivering Mindfulness Meditation with Different Physical Embodiments

arxiv url: http://arxiv.org/abs/2401.03581v1
Date: Sun, 7 Jan 2024 21:14:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 18:16:19.076476
Title: Evaluating and Personalizing User-Perceived Quality of Text-to-Speech Voices for Delivering Mindfulness Meditation with Different Physical Embodiments
Title（参考訳）: 身体の異なるマインドフルネス改善のためのテキスト音声のユーザ知覚品質の評価とパーソナライズ
Authors: Zhonghao Shi, Han Chen, Anna-Maria Velentza, Siqi Liu, Nathaniel Dennler, Allison O'Connell, and Maja Matari\'c
Abstract要約: 本研究は,マインドフルネス・メディテーション(マインドフルネス・メディテーション)を施行するための,最先端音声のユーザ認識品質について検討した。その結果、最も高い評価を受けたヒトの声は、すべてのTS音声より優れていた。 TTSの音声機能を微調整することで、ユーザー個人化されたTTSの音声は、人間の声とほぼ同等の性能を発揮できる。
参考スコア（独自算出の注目度）: 5.413055126487447
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Mindfulness-based therapies have been shown to be effective in improving mental health, and technology-based methods have the potential to expand the accessibility of these therapies. To enable real-time personalized content generation for mindfulness practice in these methods, high-quality computer-synthesized text-to-speech (TTS) voices are needed to provide verbal guidance and respond to user performance and preferences. However, the user-perceived quality of state-of-the-art TTS voices has not yet been evaluated for administering mindfulness meditation, which requires emotional expressiveness. In addition, work has not yet been done to study the effect of physical embodiment and personalization on the user-perceived quality of TTS voices for mindfulness. To that end, we designed a two-phase human subject study. In Phase 1, an online Mechanical Turk between-subject study (N=471) evaluated 3 (feminine, masculine, child-like) state-of-the-art TTS voices with 2 (feminine, masculine) human therapists' voices in 3 different physical embodiment settings (no agent, conversational agent, socially assistive robot) with remote participants. Building on findings from Phase 1, in Phase 2, an in-person within-subject study (N=94), we used a novel framework we developed for personalizing TTS voices based on user preferences, and evaluated user-perceived quality compared to best-rated non-personalized voices from Phase 1. We found that the best-rated human voice was perceived better than all TTS voices; the emotional expressiveness and naturalness of TTS voices were poorly rated, while users were satisfied with the clarity of TTS voices. Surprisingly, by allowing users to fine-tune TTS voice features, the user-personalized TTS voices could perform almost as well as human voices, suggesting user personalization could be a simple and very effective tool to improve user-perceived quality of TTS voice.
Abstract（参考訳）: マインドフルネスベースの治療法はメンタルヘルスを改善するのに有効であることが示されており、テクノロジーベースの手法はこれらの治療法のアクセシビリティを拡大する可能性がある。これらの方法でのマインドフルネス実践のためにリアルタイムなパーソナライズされたコンテンツ生成を可能にするためには、音声による指示を提供し、ユーザのパフォーマンスや嗜好に応答するために、高品質なコンピュータ合成音声(TTS)が必要である。しかし, 感情的表現力を必要とするマインドフルネス想起の管理には, TTS音声のユーザ認識の質がまだ評価されていない。さらに, 身体的具体化とパーソナライゼーションが, TTS音声のユーザ知覚品質に及ぼす影響について, まだ研究されていない。そこで我々は2段階の被験者研究をデザインした。第1相では、オンライン・メカニカル・ターク・トゥ・サブジェクト・スタディ (n=471) が、リモート参加者と3つの異なる身体的体格設定(エージェント、会話エージェント、社会支援ロボット)で3つの(女性、男性、子供のような)最先端のtts音声を評価した。第1相(第2相)から得られた知見をもとに,第2相(n=94)の個人内イントラジェクト調査を行い,ユーザの好みに基づくtts音声のパーソナライズと,第1相(第1相)の非パーソナライズ音声と比較したユーザ知覚品質の評価を行った。 TTS音声の感情的表現性や自然性は低いが, 利用者はTS音声の明瞭さに満足していた。驚いたことに、ユーザがTTSの音声機能を微調整できるようにすることで、ユーザー個人化されたTTS音声は人間の声とほぼ同等の性能を発揮できる。

関連論文リスト

Revival with Voice: Multi-modal Controllable Text-to-Speech Synthesis [52.25128289155576]
本稿では,顔画像から音声を生成するマルチモーダル制御可能なテキスト音声合成(TTS)について検討する。顔駆動型TSシステムにおける以下の3つの課題を軽減することを目的としている。顔駆動音声合成におけるモデルの有効性を実験的に検証した。
論文参考訳（メタデータ） (2025-05-25T04:43:17Z)
Facial Expression-Enhanced TTS: Combining Face Representation and Emotion Intensity for Adaptive Speech [0.13654846342364302]
FEIM-TTSはゼロショット音声合成モデルである。モデルはLSS3、CREMA-D、MELDデータセットを使用してトレーニングされ、適応性を示している。 TTSに感情的なニュアンスを組み込むことで、Webコミックのダイナミックで魅力的な聴覚体験を可能にし、視覚障害者がこれらの物語をより完全に楽しめるようにする。
論文参考訳（メタデータ） (2024-09-24T16:01:12Z)
Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文参考訳（メタデータ） (2024-07-08T18:20:24Z)
Accent Conversion in Text-To-Speech Using Multi-Level VAE and Adversarial Training [14.323313455208183]
包括的音声技術は、特定のアクセントを持つ人々のような特定のグループに対する偏見を消すことを目的としている。本稿では,アクセント付き音声合成と変換に逆学習を用いたマルチレベル変分オートエンコーダを用いたTSモデルを提案する。
論文参考訳（メタデータ） (2024-06-03T05:56:02Z)
Creating New Voices using Normalizing Flows [16.747198180269127]
本研究では,テキスト音声(TTS)と音声変換(VC)モードのフローを正規化して,学習中に観察された話者から外挿し,未知の話者識別を生成する能力について検討する。目的と主観の両方を用いて、ゼロショットと新しい音声合成という2つの評価課題にテクニックをベンチマークする。
論文参考訳（メタデータ） (2023-12-22T10:00:24Z)
ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文参考訳（メタデータ） (2023-05-23T08:52:00Z)
Reinforcement Learning for Emotional Text-to-Speech Synthesis with Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。 i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。 i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文参考訳（メタデータ） (2021-04-03T13:52:47Z)
Limited Data Emotional Voice Conversion Leveraging Text-to-Speech: Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文参考訳（メタデータ） (2021-03-31T04:56:14Z)
AdaSpeech: Adaptive Text to Speech for Custom Voice [104.69219752194863]
新しい音声の高品質かつ効率的なカスタマイズのための適応型TSシステムであるAdaSpeechを提案する。実験結果から,AdaSpeechはベースライン法よりも適応性が高く,話者毎のパラメータは5K程度であった。
論文参考訳（メタデータ） (2021-03-01T13:28:59Z)
I-vector Based Within Speaker Voice Quality Identification on connected speech [3.2116198597240846]
声の障害は人口の大部分、特に教師やコールセンターワーカーのような重い音声ユーザーに影響を与える。ほとんどの音声障害は行動的音声療法によって治療され、患者に問題のある習慣のある音声生成メカニズムを置き換えるように教える。同一人物が生成する様々な声質を自動的に区別する2つのシステムを構築した。
論文参考訳（メタデータ） (2021-02-15T02:26:32Z)
VoiceCoach: Interactive Evidence-based Training for Voice Modulation Skills in Public Speaking [55.366941476863644]
ピッチ,ボリューム,速度などの音声特性の変調は,公的な発話を成功させる上で極めて重要である。音声変調スキルの効果的な訓練を容易にする対話型エビデンスに基づくアプローチであるVoiceCoachを提案する。
論文参考訳（メタデータ） (2020-01-22T04:52:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。