論文の概要: Evaluating and Personalizing User-Perceived Quality of Text-to-Speech
Voices for Delivering Mindfulness Meditation with Different Physical
Embodiments
- arxiv url: http://arxiv.org/abs/2401.03581v1
- Date: Sun, 7 Jan 2024 21:14:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 18:16:19.076476
- Title: Evaluating and Personalizing User-Perceived Quality of Text-to-Speech
Voices for Delivering Mindfulness Meditation with Different Physical
Embodiments
- Title(参考訳): 身体の異なるマインドフルネス改善のためのテキスト音声のユーザ知覚品質の評価とパーソナライズ
- Authors: Zhonghao Shi, Han Chen, Anna-Maria Velentza, Siqi Liu, Nathaniel
Dennler, Allison O'Connell, and Maja Matari\'c
- Abstract要約: 本研究は,マインドフルネス・メディテーション(マインドフルネス・メディテーション)を施行するための,最先端音声のユーザ認識品質について検討した。
その結果、最も高い評価を受けたヒトの声は、すべてのTS音声より優れていた。
TTSの音声機能を微調整することで、ユーザー個人化されたTTSの音声は、人間の声とほぼ同等の性能を発揮できる。
- 参考スコア(独自算出の注目度): 5.413055126487447
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mindfulness-based therapies have been shown to be effective in improving
mental health, and technology-based methods have the potential to expand the
accessibility of these therapies. To enable real-time personalized content
generation for mindfulness practice in these methods, high-quality
computer-synthesized text-to-speech (TTS) voices are needed to provide verbal
guidance and respond to user performance and preferences. However, the
user-perceived quality of state-of-the-art TTS voices has not yet been
evaluated for administering mindfulness meditation, which requires emotional
expressiveness. In addition, work has not yet been done to study the effect of
physical embodiment and personalization on the user-perceived quality of TTS
voices for mindfulness. To that end, we designed a two-phase human subject
study. In Phase 1, an online Mechanical Turk between-subject study (N=471)
evaluated 3 (feminine, masculine, child-like) state-of-the-art TTS voices with
2 (feminine, masculine) human therapists' voices in 3 different physical
embodiment settings (no agent, conversational agent, socially assistive robot)
with remote participants. Building on findings from Phase 1, in Phase 2, an
in-person within-subject study (N=94), we used a novel framework we developed
for personalizing TTS voices based on user preferences, and evaluated
user-perceived quality compared to best-rated non-personalized voices from
Phase 1. We found that the best-rated human voice was perceived better than all
TTS voices; the emotional expressiveness and naturalness of TTS voices were
poorly rated, while users were satisfied with the clarity of TTS voices.
Surprisingly, by allowing users to fine-tune TTS voice features, the
user-personalized TTS voices could perform almost as well as human voices,
suggesting user personalization could be a simple and very effective tool to
improve user-perceived quality of TTS voice.
- Abstract(参考訳): マインドフルネスベースの治療法はメンタルヘルスを改善するのに有効であることが示されており、テクノロジーベースの手法はこれらの治療法のアクセシビリティを拡大する可能性がある。
これらの方法でのマインドフルネス実践のためにリアルタイムなパーソナライズされたコンテンツ生成を可能にするためには、音声による指示を提供し、ユーザのパフォーマンスや嗜好に応答するために、高品質なコンピュータ合成音声(TTS)が必要である。
しかし, 感情的表現力を必要とするマインドフルネス想起の管理には, TTS音声のユーザ認識の質がまだ評価されていない。
さらに, 身体的具体化とパーソナライゼーションが, TTS音声のユーザ知覚品質に及ぼす影響について, まだ研究されていない。
そこで我々は2段階の被験者研究をデザインした。
第1相では、オンライン・メカニカル・ターク・トゥ・サブジェクト・スタディ (n=471) が、リモート参加者と3つの異なる身体的体格設定(エージェント、会話エージェント、社会支援ロボット)で3つの(女性、男性、子供のような)最先端のtts音声を評価した。
第1相(第2相)から得られた知見をもとに,第2相(n=94)の個人内イントラジェクト調査を行い,ユーザの好みに基づくtts音声のパーソナライズと,第1相(第1相)の非パーソナライズ音声と比較したユーザ知覚品質の評価を行った。
TTS音声の感情的表現性や自然性は低いが, 利用者はTS音声の明瞭さに満足していた。
驚いたことに、ユーザがTTSの音声機能を微調整できるようにすることで、ユーザー個人化されたTTS音声は人間の声とほぼ同等の性能を発揮できる。
関連論文リスト
- Creating New Voices using Normalizing Flows [16.747198180269127]
本研究では,テキスト音声(TTS)と音声変換(VC)モードのフローを正規化して,学習中に観察された話者から外挿し,未知の話者識別を生成する能力について検討する。
目的と主観の両方を用いて、ゼロショットと新しい音声合成という2つの評価課題にテクニックをベンチマークする。
論文 参考訳(メタデータ) (2023-12-22T10:00:24Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - Fine-grained Emotional Control of Text-To-Speech: Learning To Rank
Inter- And Intra-Class Emotion Intensities [1.4986031916712106]
State-of-the-art Text-To-Speech (TTS)モデルは高品質な音声を生成することができる。
本稿では,クラス間距離とクラス内距離の両方を考慮した,きめ細かい制御可能な感情的TSを提案する。
我々の実験は、制御性、感情、自然性の2つの最先端制御可能なTSモデルを超えることを示した。
論文 参考訳(メタデータ) (2023-03-02T09:09:03Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z) - AdaSpeech: Adaptive Text to Speech for Custom Voice [104.69219752194863]
新しい音声の高品質かつ効率的なカスタマイズのための適応型TSシステムであるAdaSpeechを提案する。
実験結果から,AdaSpeechはベースライン法よりも適応性が高く,話者毎のパラメータは5K程度であった。
論文 参考訳(メタデータ) (2021-03-01T13:28:59Z) - I-vector Based Within Speaker Voice Quality Identification on connected
speech [3.2116198597240846]
声の障害は人口の大部分、特に教師やコールセンターワーカーのような重い音声ユーザーに影響を与える。
ほとんどの音声障害は行動的音声療法によって治療され、患者に問題のある習慣のある音声生成メカニズムを置き換えるように教える。
同一人物が生成する様々な声質を自動的に区別する2つのシステムを構築した。
論文 参考訳(メタデータ) (2021-02-15T02:26:32Z) - VoiceCoach: Interactive Evidence-based Training for Voice Modulation
Skills in Public Speaking [55.366941476863644]
ピッチ,ボリューム,速度などの音声特性の変調は,公的な発話を成功させる上で極めて重要である。
音声変調スキルの効果的な訓練を容易にする対話型エビデンスに基づくアプローチであるVoiceCoachを提案する。
論文 参考訳(メタデータ) (2020-01-22T04:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。