論文の概要、ライセンス

# (参考訳) read the room: ロボットの声を環境や社会的文脈に適応させる [全文訳有]

Read the Room: Adapting a Robot's Voice to Ambient and Social Contexts ( http://arxiv.org/abs/2205.04952v1 )

ライセンス: CC0 1.0
Emma Hughson, Paige Tuttosi, Akihiro Matsufuji, Angelica Lim(参考訳) 声を異なる環境や社会的相互作用に適応させることは、人間の社会的相互作用に必要である。 ロボット工学では, 騒音や静かな環境下での音声認識能力に大きな注目を集めているが, 社会的音声特徴の生成における環境要因を考えると, ほとんど検討されていない。 本研究は,各種レストランにおけるサービスロボットの活用事例から,様々な社会的・音響的文脈における受容性を最大化するために,ロボットの発話を改変することを目的とする。 参加者は7つの異なる環境音と背景画像を入力して、スクリプト化されたタスクとスクリプトなしのタスクで会話する。 音声合成には, 音声変換法に加えて, 環境データに適合するテキストから音声への変換法が用いられた。 そこで我々は,人間が環境と社会的文脈に合った合成音声を好むことを示す主観的知覚調査を行った。 本研究は,(1)実環境下での音声データ収集のための新しいプロトコル,(2)適切な社会的・環境的なインタラクションのためにロボット音声を操作するためのツールと方向,(3)異なる環境に対応するために柔軟にロボット音声を変換する上での音声変換の役割に関する洞察の3つのソリューションを提供する。

Adapting one's voice to different ambient environments and social interactions is required for human social interaction. In robotics, the ability to recognize speech in noisy and quiet environments has received significant attention, but considering ambient cues in the production of social speech features has been little explored. Our research aims to modify a robot's speech to maximize acceptability in various social and acoustic contexts, starting with a use case for service robots in varying restaurants. We created an original dataset collected over Zoom with participants conversing in scripted and unscripted tasks given 7 different ambient sounds and background images. Voice conversion methods, in addition to altered Text-to-Speech that matched ambient specific data, were used for speech synthesis tasks. We conducted a subjective perception study that showed humans prefer synthetic speech that matches ambience and social context, ultimately preferring more human-like voices. This work provides three solutions to ambient and socially appropriate synthetic voices: (1) a novel protocol to collect real contextual audio voice data, (2) tools and directions to manipulate robot speech for appropriate social and ambient specific interactions, and (3) insight into voice conversion's role in flexibly altering robot speech to match different ambient environments.
公開日: Tue, 10 May 2022 15:10:23 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Read the Room: Adapting a Robot’s Voice to Ambient and Social 部屋を読む:ロボットの声をアンビエントでソーシャルに適応させる 0.73
Contexts Emma Hughson1, Paige Tutt¨os´ı1, Akihiro Matsufuji2, and Angelica Lim1 文脈 エマ・ヒューソン1、ペイジ・タット・オオス1、松藤明弘2、アンジェリカ・リム1 0.53
2 2 0 2 y a M 0 1 2 2 0 2 y a m 0 1 である。 0.53
] O R . s c [ ] 略称はR。 sc [ 0.43
1 v 2 5 9 4 0 1 v 2 5 9 4 0 0.42
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Abstract— Adapting one’s voice to different ambient environments and social interactions is required for human social interaction. 抽象 — 人の声を異なる環境に適応させ、社会的相互作用は人間の社会的相互作用に必要である。
訳抜け防止モード: 抽象的 ― 異なる環境と社会的相互作用に声を適応させる 人間の社会的相互作用に必要です
0.82
In robotics, the ability to recognize speech in noisy and quiet environments has received significant attention, but considering ambient cues in the production of social speech features has been little explored. ロボット工学では, 騒音や静かな環境下での音声認識能力に大きな注目を集めているが, 社会的音声特徴の生成における環境要因を考えると, ほとんど検討されていない。 0.68
Our research aims to modify a robot’s speech to maximize acceptability in various social and acoustic contexts, starting with a use case for service robots in varying restaurants. 本研究の目的は、様々なレストランにおけるサービスロボットのユースケースから始まり、様々な社会的・音響的文脈における受容性を最大化するためにロボットの音声を変更することである。 0.63
We created an original dataset collected over Zoom with participants conversing in scripted and unscripted tasks given 7 different ambient sounds and background images. 参加者は7つの異なる環境音と背景画像を入力して、スクリプト化されたタスクとスクリプトなしのタスクで会話する。 0.57
Voice conversion methods, in addition to altered Text-to-Speech that matched ambient specific data, were used for speech synthesis tasks. 音声合成には, 音声変換法に加えて, 環境データに適合するテキストから音声への変換法が用いられた。 0.74
We conducted a subjective perception study that showed that humans prefer synthetic speech that matches ambience and social context, ultimately preferring a more human-like voices. 主観的知覚調査を行い、人間は環境と社会的文脈に合った合成音声を好み、最終的には人間的な声を好むことを示した。 0.63
This work provides three solutions to ambient and socially appropriate synthetic voices: (1) a novel protocol to collect real contextual audio voice data, (2) tools and directions to manipulate robot speech for appropriate social and ambient specific interactions, and (3) insight into voice conversion’s role in flexibly altering robot speech to match different ambient environments. 本研究は,(1)実環境下での音声データ収集のための新しいプロトコル,(2)適切な社会的・環境的なインタラクションのためにロボット音声を操作するためのツールと方向,(3)異なる環境に対応するために柔軟にロボット音声を変換する上での音声変換の役割に関する洞察の3つのソリューションを提供する。 0.84
I. INTRODUCTION I. イントロダクション 0.64
Humans have the innate ability to adapt their voice to different contexts and social situations. 人間は声を異なる状況や社会的状況に適応させる能力を持っている。 0.79
Although we consider linguistic vocal phenomenon to be our primary means of communication amongst humans, a significant portion of our communication results from non linguistic vocal features that can completely alter the meaning of phrases [1]. 言語発声現象は人間同士のコミュニケーションの第一の手段であると考えるが、コミュニケーションのかなりの部分は、フレーズの意味を完全に変えることができる非言語発声の特徴から生じる([1])。 0.78
For example, someone may say “it’s over.” at the end of a vacation with a sense of sadness, or they may say “It’s over!” with a sense of enthusiasm after completing an examination they have been studying for. 例えば、誰かが休暇の終わりに悲しみの気持ちで「終わりだ」と言う場合や、勉強した試験を終えて熱意を持って「終わりだ!」と言う場合もあります。
訳抜け防止モード: 例えば、誰かが言うかもしれません。 と、休暇の終わりに悲しい気持ちを味わった。 あるいは、こう言うかもしれない。 と、彼らが勉強した試験を終えて熱意を覚えた。
0.61
Without the ability to produce and understand these contextual non linguistic vocal features we would have a difficult time navigating everyday life. これらの文脈的非言語音声の特徴を創造し理解する能力がなければ、日常生活をナビゲートするのは難しいでしょう。 0.66
Voice is important and it solidifies trust in not only humanto-human interaction but also human-to-robot interaction [2]. 音声は重要であり、人間と人間の相互作用だけでなく、人間とロボットの相互作用 [2] への信頼を固める。
訳抜け防止モード: 声は重要だ 人間と人間の相互作用だけでなく 人間とロボットの相互作用 [2 ]。
0.79
Given the features associated with our speech are important in communicating in different contexts, it is important for robot’s to be able to communicate in a similar fashion. 音声に関連した特徴が、異なる文脈でのコミュニケーションにおいて重要であることを考えると、ロボットが同様の方法でコミュニケーションできることが重要である。 0.81
Providing a robot with the opportunity to adapt ロボットに適応する機会を与える 0.67
their voice to different contexts and social situations has not yet been thoroughly explored. 異なる状況や社会的状況に対する彼らの声はまだ 徹底的に調べられていません 0.62
Robots are used every day in ロボットは毎日使われています 0.81
*This work was supported by NSERC Discovery Grant 06908-2019 1Emma Hughson, Paige Tutt¨os´ı and Angelica Lim are with the School of Computing Science, Simon Fraser University, 8888 University Dr. ※この研究は、NSERC Discovery Grant 06908-2019 1Emma Hughson、Paige Tutt sos ́ı、Angelica Limが支援し、コンピュータ科学学校、Simon Fraser University, 8888 University Dr。 0.78
, Burnaby, Canada {ehughson,ptuttosi,an gelica}@sfu.ca Burnaby, Canada {ehughson,ptuttosi,an gelica}@sfu.ca 0.44
2Akihiro Matsufuji is with Graduate School of System Design, Faculty of Computing Science, Tokyo Metropolitan University, 6-6 Hino city, Tokyo, Japan matsufuji-akihiro@ed .tmu.ac.jp 松藤明弘(まつふじあきひろ)は、東京都立大学コンピュータ科学研究科システムデザイン研究科、東京都日野市6-6 松藤明弘@ed.tmu.ac.jp 0.70
Fig. 1. A robot in a fine dining restaurant vs. a night club should adapt its voice to the ambience. 図1。 高級食堂のロボットとナイトクラブのロボットは、その声を周囲に適応させる必要がある。 0.47
vastly different contexts, therefore, the need for a robot to successfully adapt itself into both the ambience and the social environment proves important when integrating robots into humans’ everyday lives [3], [4], [5]. それゆえ、ロボットが人間の日常生活にロボットを組み込む場合、ロボットが快適さと社会的環境の両方にうまく適応する必要性は重要であることを証明している [3], [4], [5]。 0.79
State-of-the-art social robots such as Pepper, Nao and iCub utilize expressive voices custom built by companies such as Acapela 1. Pepper、Nana、iCubといった最先端のソーシャルロボットは、Acapela 1のような会社によって作られた表現力豊かな音声を利用する。 0.55
These voices are exceedingly expensive and resource intensive to generate, as such are often outside the means of individuals and small scale companies developing interactive robots. これらの声は、非常に高価で、生産に集約的なものであり、個人や小規模の企業が対話型ロボットを開発する手段の外にあることが多い。
訳抜け防止モード: これらの声は、非常に高価でリソースが集中的に生成される。 対話型ロボットを開発する個人や小規模企業の 手段外にあることが多いのです
0.66
In these cases the developers often rely on widely available text-to-speech (TTS) services that only allow minor adjustments and voice selections, and, overall, are considered flat and inexpressive. このような場合、開発者は小さな調整と音声選択しかできない広く利用可能なtext-to-speech (tts) サービスに頼ることが多く、全体としては平坦で表現力に乏しいと考えられている。 0.62
Our solution is to use a data driven approach to generate the robot’s voice. 私たちのソリューションは、ロボットの声を生成するためにデータ駆動アプローチを使用することです。 0.77
For example, using a corpus of human voices that are collected in different contexts, we use the human speech features to modify those of a robot’s voice. 例えば、異なる文脈で収集される人間の声のコーパスを使用して、人間の音声機能を使用して、ロボットの声のコーパスを変更する。 0.74
Voice conversion systems are available free of charge to developers as an expressive, yet low barrier access, alternative to custom voices. 音声変換システムは、開発者がカスタム音声の代わりに、表現力がありながら低いバリアアクセスとして無料で利用できる。 0.72
However, the issue with this method is that it is difficult to collect clean recordings of realistic data in noisy and crowded environments. しかし,本手法の問題点は,騒音や混雑環境下で現実的なデータのクリーンな記録を収集することが難しいことである。 0.76
The current study plans to circumvent these challenges by utilizing a readily available video-conferencing platform. 本研究は,ビデオ会議プラットフォームを利用して,これらの課題を回避することを目的としている。
訳抜け防止モード: 現在の研究計画 簡単に使えるビデオ会議プラットフォームを利用することで、これらの課題を回避する。
0.58
Placing participants into a simulated environment in the comfort of their own home opens the door to the potential to easily collect naturalistic data more efficiently. 参加者を自宅の快適さでシミュレートされた環境に配置することで、自然主義的なデータをより効率的に収集できる可能性への扉を開く。
訳抜け防止モード: 自宅の快適さを模擬した環境に参加者を配置する 自然科学的なデータを より効率的に収集できる可能性への扉を開く
0.77
As such, the current study hopes to bridge the following gaps in the literature: そのため、本研究では、以下の文献のギャップを埋めようとしている。 0.64
1) Implementing a novel protocol for collecting realistic 1)現実的な収集のための新しいプロトコルの実装 0.68
contextual audio voice data 2) Investigating human voice adaptation to determine 文脈音声データ 2)人間の声の適応性を調査して判断する 0.58
1https://www.acapela -group.com/ 1https://www.acapela -group.com/ 0.17
英語(論文から抽出)日本語訳スコア
relevant features that can improve robot voices in different ambient and social contexts 環境と社会の異なる文脈でロボットの声を改善できる関連する特徴 0.83
3) Testing human perception to better understand how humans perceive robot voices, in particular: 3)特にロボットの声の知覚をよりよく理解するために、人間の知覚をテストすること。 0.71
(a) Comparing baseline TTS, adaptive TTS, voice conversion, and human voices, (a)ベースラインTS、適応TS、音声変換、人声の比較 0.57
(b) How humans perceive voice conversion as adaptive to the environment, and b)環境に適応して人間が音声変換を知覚する方法、及び 0.81
(c) How humans perceive pitch in TTS against a common social environment (c)共通の社会環境に対するTTSのピッチの認識について 0.72
II. RELATED WORKS A. HUMAN CONTEXTUAL VOCAL MODIFICATIONS II。 関連作業 A.人間コンテククチュアルな声帯変調 0.65
Most often human vocal modifications are for the purposes of creating ‘deliberately clear speech,’ when the listener is, for any reason, experiencing reduced comprehension [6]. ほとんどの場合、人間の声の修正は、聴き手が何らかの理由で理解が減った場合の「意図的に明瞭なスピーチ」を作成するためである [6]。 0.74
These modifications are often listener specific as is the case in speech directed towards infants and children [7], those who are hearing impaired [8], and machines [9]. これらの修正は、幼児や子供、聴覚障害[8]、機械[9]に向けられた音声の場合のように、リスナー特有のものであることが多い。 0.69
Modifications may otherwise occur when the environment is causing auditory hindrance, as is the case with distant speakers [10], distorted transmission [11], or noisy spaces [11]. 環境が聴覚障害を引き起こす場合、例えば、遠くの話者[10]、歪んだ伝達[11]、または騒がしい空間[11]のように、修正が行われることがある。 0.79
In some cases speech is not modified for clarity, but rather to communicate a specific emotion of purpose, such as politeness[12]. ある場合には、話し言葉は明快さのために修正されるのではなく、丁寧さ[12]のような目的の特定の感情を伝える。 0.64
For example, in some cases of infant speech, modifications are made to get a child’s attention rather than promote clarity [13]. 例えば、幼児の発話の場合には、明瞭さを促進するのではなく、子どもの注意を引くように修正する[13]。 0.74
Vocal modifications are produced without conscious effort to elicit a specific auditory feature, rather they are produced as a result of achieving the aforementioned goals. 声道修正は特定の聴覚的特徴を引き出すための意識的な努力を伴わずに生成されるが、上記の目的を達成するために生成される。 0.65
As an example, one of the most well researched and understood vocal phenomena is the Lombard effect [14]. 例えば、最もよく研究され理解された発声現象の1つはロンバルド効果[14]である。 0.81
The Lombard effect is an involuntary increase in vocal effort, often due to the presence of background noise [11]. ランゴバルド効果は声の努力が不随意に増加することであり、しばしば背景雑音の存在による [11] 。 0.71
Although it is well understood that humans produce these vocal phenomena in response to ambience and context, the reproduction of these effects in generated speech is relatively new and sparsely studied. 人間は環境や文脈に応じてこれらの声の現象を発生させることはよく理解されているが、生成された音声におけるこれらの効果の再現は比較的新しく、軽微に研究されている。 0.56
B. CURRENT STATE OF GENERATED VOICES B. 発生音声の現況 0.58
1) Text-to-Speech: TTS has become an inexpensive and efficient means to create realistic voices for the purpose of simulating robotic behaviors [15], [16], [17]. 1)テキスト・トゥ・Speech:TTSは,ロボットの動作をシミュレートする目的で,現実的な音声を生成するための,安価で効率的な手段となっている [15], [16], [17]。
訳抜け防止モード: 1)テキストから音声へ : TTSは現実的な音声を作り出すための安価で効率的な手段となっている ロボット行動のシミュレーション [15 ], [16 ], [17 ]
0.86
Currently, stateof-the-art tools for TTS use signal processing algorithms (i.e., vocoder). 現在、TSの最先端ツールは信号処理アルゴリズム(vocoder)を使用している。 0.74
For example WaveNet, uses speech synthesis, and Tacotron, uses spectrogram synthesis. 例えば、音声合成を使用するWaveNetや、スペクトログラム合成を使用するTacotronなどがある。 0.75
Companies like Google2, Amazon3, and Microsoft4 all have their own variations of these vocoders. google2、amazon3、microsoft4といった企業は、それぞれ独自のvocoderを持っている。 0.63
These TTS technologies produce realistic speech and are normally freely available, or available with for a small fee, to the general public. これらのTTS技術は、現実的なスピーチを生み出し、通常は無料、または少額の料金で一般大衆に利用可能である。 0.65
Nevertheless, TTS has multiple shortcomings. しかし、TSには複数の欠点がある。 0.63
Firstly, for many years the primary concern for TTS was intelligibility; this resulted in voices being produced by the state-of-the-art that can be mistaken for a human voice, yet, they still do not have the ability to adapt to both physical and social contexts. まず、長年、TSの主な関心事は知性であり、それによって人間の声と間違えられるような最先端の音声が生み出されるが、物理的な文脈と社会的文脈の両方に適応する能力を持っていない。 0.72
2https://cloud.googl e.com/text-to-speech / 3https://aws.amazon. com/polly/ 4https://azure.micro soft.com/en-us/servi ces/cognitive-servic es/text-to- 2https://cloud.googl e.com/text-to-speech / 3https://aws.amazon. com/polly/ 4https://azure.micro soft.com/en-us/servi ces/cognitive-servic es/text-to- 0.11
speech/ Tacotron-GST expresses basic emotions, however, is independent of ambience [18], [19], [20], [21]. スピーチ タコトロンGSTは基本的な感情を表現するが、環境[18], [19], [20], [21]には依存しない。 0.66
Furthermore, TTS is rule-based and as such, it is often constrained by Speech Synthesis Markup Language (SSML). さらに、TSは規則に基づくため、しばしば音声合成マークアップ言語(SSML)によって制約される。 0.80
Although the available features have broadened and include loudness, pitch, and rate-of-speech5, it is not clear whether these features are sufficient for a robot to flexibly and automatically adapt its voice to context. 声の大きさ、ピッチ、音速5といった特徴は広くなっているが、ロボットが音声を柔軟に自動的に文脈に適応させるのにこれらの特徴が十分かは定かではない。 0.64
2) Voice Conversion: Voice conversion is a method whereby a source speaker’s speech waveforms are adjusted to that of the target speaker [22], as such allowing for the modification of source speaker style to match that of a target speaker[23]. 2)音声変換:音声変換は、ソーススピーカの音声波形をターゲットスピーカ[22]のそれに合わせて調整する手法であり、ソーススピーカのスタイルがターゲットスピーカ[23]のそれと一致するようにする。 0.69
Furthermore,it has become increasingly popular to use non-parallel speech [24], [25], keeping the underlying linguistic information, e g , words, without restricting training utterances to contain the same underlying linguistic information [26]. さらに,非並列音声 [24], [25] の使用や, 基礎となる言語情報, 例えば, 単語の保持が, 基礎となる言語情報 [26] を含むように, 訓練発話を制限することなく普及している。 0.83
A popular method for voice conversion is to make use of statistical methods, such as the commonly employed Gaussian Mixture Models (GMM) for parallel voice conversion tasks [22]. 音声変換の一般的な方法は、パラレル音声変換タスクによく使われるガウス混合モデル(gmm)のような統計的手法を使用することである [22]。 0.78
With recent advancement and popularity in Generative Adversarial Networks (GAN), variational auto-encoders (VAE), and VectorQuantized Variational Autoencoders (VQ-VAE) non-parallel voice conversion has significantly improved [24], [27], [28], [24], [26]. GAN(Generative Adversarial Networks)やVAE(VectorQuantized Variational Autoencoders)、VQ-VAE(VectorQuantiz ed Variational Autoencoders)の最近の進歩と人気により、[24], [27], [28], [24], [26]が大幅に向上した。
訳抜け防止モード: GAN(Generative Adversarial Networks)の最近の進歩と人気 変分自動エンコーダ(VAE)とベクトル量子変分自動エンコーダ(VQ - VAE)の非並列音声変換は[24]で大幅に改善された。 [ 27 ], [ 28 ], [ 24 ], [ 26 ] .
0.83
3) Robotics: Recently, a survey of robotics researchers found that the vast majority choose their voices by convenience rather than considering contextual and use case specific features [29]. 3)最近のロボティクス研究者の調査では、ほとんどの人は、文脈やユースケース特有の特徴を考慮せずに、便利に自分の声を選びます[29]。 0.75
This approach to synthesized voices can be problematic as it has been continually agreed upon that first impressions with a robot will determine the course of the user experience [30], [31], [32], [33]. この合成音声に対するアプローチは,ロボットによる最初の印象がユーザエクスペリエンス [30], [31], [32], [33] の経過を決定するという点で,継続的に合意されているため,問題となる場合がある。 0.86
Furthermore, several studies have shown that humans show preferences for voice depending on context and task [3], [34], [35], [36]. さらに、いくつかの研究により、人間は文脈やタスク [3], [34], [35], [36] によって音声の好みを示すことが示されている。 0.74
In [3], participants rated the appropriateness of robot voices given different contexts including schools, restaurants, homes and hospitals. 3]では,学校,レストラン,自宅,病院など,さまざまな状況でロボットの声の適切性を評価する。 0.75
They found that even given the same physical appearance, participants selected varying voices depending on context and concluded that a robot voice created for a specific context is likely not generalizable. 彼らは、同じ身体的外観であっても、参加者は状況に応じて様々な声を選択し、特定の状況のために作られたロボットの声は一般化できないと結論づけた。 0.61
Some studies have suggested the incorporation of context based methods such as sociophonetic inspired design [37] and acoustic-prosodic adaption to match user pitch [38]. いくつかの研究は、社会音韻インスピレーションデザイン[37]や、ユーザピッチ[38]にマッチする音響・韻律適応などの文脈に基づく手法の導入を示唆している。
訳抜け防止モード: 社会音的インスパイアデザインのような文脈に基づく手法の導入を示唆する研究[37] 音響的-韻律的適応 ユーザピッチ[38]と一致させる。
0.71
In addition, further research has made an attempt to produce the Lombard effect, with research relying on incremental adaptation of loudness to the context of distance and user targeting [39] or the adjustment of volume based on environmental noise levels [40]. さらに,ラウドネスを距離やユーザターゲットの文脈に漸進的に適応させたり,環境騒音レベルに基づく音量調整 [40] など,ロンバルド効果の生み出す研究も行われている。
訳抜け防止モード: さらに、さらなる研究によりロンバルド効果の生成が試みられている。 距離の文脈に対するラウドネスの漸進的適応に基づく研究 ユーザターゲティング[39]または環境騒音レベルに基づくボリューム調整[40]。
0.71
Although these methods have shown promising results, few are readily available for general use. これらの手法は有望な結果を示しているが、一般に利用できるものは少ない。 0.59
Even the curated voices of state-of-the-art robots are not necessarily perceived as appropriate in all contexts [3], [29]. 最先端ロボットのキュレートされた声でさえ、すべての文脈[3],[29]において必ずしも適切ではない。 0.65
As such, it is important to develop voices that are contextspecific, yet readily available. そのため、コンテキスト特有だが容易に利用できる音声を開発することが重要である。 0.72
5https://cloud.googl e.com/text-to-speech /docs/ssml 5https://cloud.googl e.com/text-to-speech /docs/ssml 0.11
英語(論文から抽出)日本語訳スコア
III. DATASET III。 データセット 0.53
Due to the trying times of the global pandemic we have created a pioneering method of virtual data collection using readily available tools that will allow researchers to collect data with no physical human interaction. 世界的なパンデミックの試行期間のため、我々は、研究者が物理的な人間との相互作用なしにデータを収集できるツールを使用して、仮想データ収集の先駆的な方法を作成しました。
訳抜け防止モード: 世界的なパンデミックの試行により、私たちは仮想データ収集の先駆的な方法を生み出しました。 研究者が物理的相互作用を伴わずにデータを収集できるツールを使用すること。
0.72
Our dataset contains speech utterance data and extracted vocal features from 12 participants. 本データセットは,12人の参加者から発声データと発声特徴を抽出した。 0.60
A. DATA COLLECTION PROTOCOL A.データ収集プロトコル 0.64
During the pandemic, the ability to interact one-on-one in a public area became difficult, and was prohibited by governmental restrictions in several countries across the world. パンデミックの間、公共の場で1対1の対話が困難になり、世界中の複数の国で政府の規制により禁止された。 0.56
As such, it has become particularly difficult for researchers to conduct field studies involving human participants. そのため、研究者が人間を含むフィールド研究を行うことは特に困難になっている。 0.74
One of the novelties of the current study was how we overcome this issue by devising a protocol mimicking a naturalistic environment over Zoom6. 現在の研究では、Zoom6上の自然主義環境を模倣するプロトコルを考案して、この問題を克服する方法が紹介されている。
訳抜け防止モード: 最近の研究の目新しさの1つは 我々はzoom6上で自然環境を模倣するプロトコルを考案することでこの問題を克服した。
0.69
Zoom is a teleconferencing program which allows individuals to communicate from anywhere in the world. zoomは、個人が世界中のどこからでもコミュニケーションできる遠隔会議プログラムだ。 0.78
Using Zoom, we paired two participants and had them listen to ambient sounds while conversing with one another in the roles of a waiter and a restaurant-goer. Zoomを使って、2人の参加者をペアにして、ウェイターとレストランの客役で会話しながら周囲の音を聞きました。 0.72
There were a total of 6 ambient sounds and 1 additional baseline measure that included no sound. 合計6つの環境音と1つのベースライン測度があり、音は含まれなかった。 0.72
The baseline condition was placed between a randomly chosen pair of ambience conditions. 基準条件はランダムに選択された環境条件の間に置かれた。 0.72
This baseline condition was used to reduce carry-over from the previous condition and obtain speakers baseline levels. このベースライン条件は、以前の状態からの搬送を減らし、話者ベースラインレベルを得るために用いられた。 0.59
In addition to sound, participants were asked to change their Zoom background to an image that was pre-selected to match the given ambience (see Figure 2). 音に加えて、参加者はズームの背景を、与えられたアンビエンスに合わせて予め選択された画像に変更するように求められた(図2参照)。 0.68
Between each ambient condition there was a 1 minute period to update participants’ Zoom backgrounds and prepare for the next condition serving as a washout to reduce carry-over effect from the previous condition. 各環境条件の間には、参加者のズーム背景を1分間更新し、次の条件を洗い出しとして準備し、前の状態からのキャリーオーバー効果を低減するための1分間の期間があった。
訳抜け防止モード: 各環境条件の間には、参加者のZoomバックグラウンドを更新するのに1分かかった。 次の状態に備えて to reduce the carry―over effect from the previous condition
0.72
Each ambience condition was further broken down into 2 subsets: (1) scripted and (2) unscripted; the assigned scripted roles were maintained for the unscripted condition. それぞれのアンビエンス条件は、(1)スクリプト化と(2)非スクリプト化の2つのサブセットに分割された。
訳抜け防止モード: 各環境条件はさらに2つのサブセットに分割された: ( 1 ) スクリプトと ( 2 ) アンスクリプト; 割り当てられたスクリプトされた役割は 記述されていない状態のために維持された
0.67
The restaurant ambiences included: fine dining, caf´e, lively restaurant, quiet bar, noisy bar, and night club. レストランの雰囲気としては、ファインダイニング、カフェ、ライブレストラン、静かなバー、騒がしいバー、ナイトクラブなどがある。 0.52
The baseline condition was a bakery with no sound or image. ベースライン条件は、音やイメージのないパン屋だった。 0.61
The ambient sounds can be listened to here7. 周囲の音はここで聴くことができる。 0.71
Scripted condition. Participants first read a brief summary of their character at the specific restaurant. スクリプト条件。 参加者はまず、特定のレストランで自分のキャラクターの簡単な要約を読む。 0.70
For example, in the fine dining condition the restaurant-goer was on a date, while at the noisy bar the restaurant-goer was with a group of friends to watch the Olympics. 例えば、ファインダイニングでは、レストランの客はデート中であり、騒々しいバーでは、レストランの客は友人のグループと一緒にオリンピックを観戦していた。 0.75
Once each participant read the summary for their character, they then read from a script that was slightly tailored for the given ambience, i.e. food and drink choices matched what is usually offered at that given restaurant. 各参加者は自分のキャラクターの要約を読んだ後、与えられたあいまいさに合わせてわずかに調整された台本を読み、すなわち、与えられたレストランで通常提供されるものと一致させる。 0.75
Consistency amongst scripts allowed for comparison of speech features across each condition. 各条件間での音声特徴の比較が可能なスクリプト間の一貫性。 0.71
The differences between scripts created a more realistic environment and reduced redundancy to maintain participant attention. スクリプトの違いは、より現実的な環境を作り、参加者の注意を引かせるために冗長性を減らした。 0.53
6www.zoom.us 7https://ehughson.gi thub.io/ambiance.git hub.io/ 6www.zoom.us 7https://ehughson.gi thub.io/ambiance.git hub.io/ 0.12
Unscripted condition. Participants were then told to remain in character and proceed with the initial scenario description of a waiter taking a customer’s order, but this time there was no script to read. 条件なし。 参加者はその後、キャラクタのままで、ウェイターが顧客の注文を受けた最初のシナリオ記述を行うように言われたが、今回は読むべきスクリプトがなかった。 0.69
This allowed participants to be more authentic as they were free to adapt other features to the ambience, such as their choice of words. これにより参加者は、言葉の選択など他の特徴を環境に適応させることが自由にできるので、より信頼できる。 0.67
B. DATASET DEMOGRAPHICS B.データセットデモグラフィ 0.49
The dataset consisted of 8 females and 4 males. データセットは8人の女性と4人の男性で構成された。 0.56
There were a total of 1545 female utterances, here defined as a single sentence, and 796 male utterances. 合計で1545名の女性発声があり、ここでは1文と定義され、男性発声は796名である。 0.64
Altogether there were 2341 clips ranging from 1 to 7 seconds. 合計で2341本が1秒から7秒のクリップであった。 0.68
All recruited participants were undergraduate students at Simon Fraser University who had either a customer service background, experience in improv, or experience in theater. 募集された参加者は全員、サイモン・フレーザー大学の学部生で、顧客サービスのバックグラウンド、即興の経験、演劇の経験がある。 0.69
C. DATASET FEATURES C.データセット機能 0.38
Clips were first converted to a monophonic channel and sampling frequency was set to 24000. クリップは最初単音節に変換され、サンプリング周波数は24000に設定された。
訳抜け防止モード: クリップは最初単音節に変換され サンプリング周波数は24000に設定されました
0.73
We collected 10 features, which can be broken up into (1) loudness features, (2) spectral features, including pitch, and (3) rate-of-speech features. 我々は,(1)大音量特徴,(2)ピッチを含むスペクトル特徴,(3)発声率特徴に分解できる10の特徴を収集した。 0.74
Our toolbox for vocal feature extraction can be foundhere8. 音声特徴抽出用ツールボックスはFinderhere8です。 0.68
1) Loudness Features: Humans have shown that 1)ラウドネスの特徴:人間はそれを示してきた 0.66
they increase and project their voice in loud environments in order to increase quality and sound clearer [14], [41], [10]. 音質を高め、[14], [41], [10]をクリアするために、彼らは大きな環境で声を上げ、投射する。 0.67
Increase of vocal intensity, often leading to Lombard speech, is commonly employed in noisy environments [42]. 発声強度の増加は、しばしばロンバルド発声につながるが、騒がしい環境では一般的に使われる [42]。 0.78
As such, we collected 3 loudness features: そこで我々は3つの大声の特徴を収集した。 0.53
(a) mean intensity, (a)強度を意味する。 0.70
(b) energy, (c) maximum intensity. (b)エネルギー (c)最大強度。 0.51
Mean intensity and energy features were calculated using the Praat 9 library via Parselmouth10, a Python wrapper. 平均強度とエネルギー機能はpythonラッパーであるparselmouth10を介してprat 9ライブラリを使って計算された。 0.70
Librosa 11 was used to extract the sound wave to calculate maximum intensity (power) following the formula provided in Section 1.3.3. リブロサ11を用いて音波を抽出し、第1.3.3節の式に従って最大強度(パワー)を算出する。 0.69
of [43]. 2) Spectral Features: We expect that humans adapt spectral features in their voice to both social and ambience specific contexts. 43]です 2)スペクトル特徴:人間は音声のスペクトル特徴を社会的・環境特有の文脈に適応させることを期待する。 0.61
For example, average pitch tends to increase with vocal effort [41], often as a result of a loud environment or as a sign of politeness[12]. 例えば、平均ピッチは声の努力[41]によって増加する傾向にあり、大音量環境の結果や丁寧さ[12]の兆候としてしばしば見られる。 0.77
To investigate these expectations we collected 5 spectral features: これらの期待を調査するため、私たちは5つのスペクトル特徴を収集した。 0.43
(a) median pitch, (b) pitch range, (a)中央ピッチ b) ピッチ範囲; ピッチ範囲 0.64
(c) shimmer, (d) jitter, and (c)シマー。 (d)ジッター、及び 0.65
(e) spectral slope. (e)スペクトル傾斜。 0.72
Parselmouth was used to extract Parselmouth (複数形 Parselmouths) 0.30
(a)- (d). Median pitch and pitch range (the difference between the minimum and maximum pitch in a given segment) are calculated in Hz after removing silences and obtaining pitch values from voiced utterances. (a)- (d)。 平均ピッチとピッチ範囲(所定のセグメントにおける最小ピッチと最大ピッチの差)は、沈黙を取り除き、有声発話からピッチ値を得る後、hzで計算される。 0.48
Local shimmer and local jitter, variations in the fundamental frequency, are perceived as vocal fry and hoarseness. 基本周波数の変動である局所シマーと局所ジッタは、声帯の揚げ声や鳴き声として知覚される。 0.62
Spectral slope gives an indication of the slope of the harmonic spectra. スペクトル傾斜は、高調波スペクトルの傾斜を示す。 0.66
For instance a -12dB slope is typical for breathy voice, and a -3dB slope is typical of richer vocal tones [44]. 例えば -12dB 傾斜は呼吸音に典型的であり、-3dB 傾斜はよりリッチな声調[44] に典型的である。 0.79
Spectral slope was calculated with the use of Parselmouth and Librosa given the formula provided in section 3.3.6 of [45]. 45]の3.3.6に規定される式から, スペクトル傾斜をパーセルマウスとリボサを用いて算出した。 0.66
8https://github.com/ ehughson/voice toolbox 9http://www.praat.or g/ 10https://parselmout h.readthedocs.io/en/ stable/ 11https://librosa.or g/doc/main/index.htm l 8https://github.com/ ehughson/voice toolbox 9http://www.praat.or g/ 10https://parselmout h.readthedocs.io/en/ stable/ 11https://librosa.or g/doc/main/index.htm l 0.15
英語(論文から抽出)日本語訳スコア
Fig. 2. Left: Overview of data collection using Zoom: participants’ backgrounds and shared audio match the current ambient condition. 図2。 左:zoomを使ったデータ収集の概要:参加者のバックグラウンドと共有オーディオが現在の環境条件にマッチする。 0.70
Right: Ambience voice adaptation approaches for a given ambience: 右:特定の曖昧性に対するあいまいな音声適応アプローチ: 0.69
(a) TTS Adaptation using temporal and pitch features, or (a)時間的特徴とピッチ特徴を用いたTS適応、又は 0.72
(b) Voice conversion for spectral features. (b)スペクトル特徴に対する音声変換 0.77
3) Rate-of-Speech Features: Research has pointed to the decrease in speaking rate when intelligibility becomes increasingly important [46], for example, in loud environments. 3)音声特徴量:大音環境などにおいて,知性の重要性が増すと発話率の低下が指摘されている[46]。 0.79
We also posit that formal speech may be slower and clearer than informal speech. また、フォーマルなスピーチはフォーマルなスピーチよりも遅く、明瞭である可能性があると仮定する。 0.51
Subsequently, we collected 3 rateof-speech features: 以下の3つの音声特徴を収集した。 0.51
(a) voiced (silences removed) syllables per second (a)音節毎の音節(音素除去) 0.59
(b) overall (silences are not removed) syllables per second, and (b)全体(サイレンスを取り除かない)1秒あたりの音節、及び 0.74
(c) pause rate. We employed syllables per second by taking the ratio of number of syllables over the duration(s) for both the voiced and overall utterances. (c)一時停止率。 音声と全体の発話の持続時間に対する音節数の割合を1秒あたりの音節数に設定した。
訳抜け防止モード: (c)一時停止率。 私たちは1秒あたりの音節を 発声音と全発声音の両方の持続時間における音節数の比率をとること。
0.55
We defined pause rate as the number of pauses, where a pause is defined as a silence of at least 50 ms between words, over the duration of a entire utterance (both voiced and overall components). 我々はポーズレートをポーズ数と定義し、ポーズは発話全体(音声と全体成分の両方)の持続時間を通じて、単語間で少なくとも50ミリ秒の沈黙として定義する。
訳抜け防止モード: 我々は停止率を停止数として定義し、停止率を単語間の少なくとも50ミリ秒の沈黙として定義した。 発話全体(音声と全体コンポーネントの両方)の期間にわたって。
0.75
Including the syllables per second for overall utterances along with pause rate may provide information regarding length of pauses and how pauses may impact the length of a utterance [34]. 全体の発話に1秒あたりの音節と停止率を含めることで、ポーズの長さやポーズが発話の長さにどのように影響するかに関する情報が得られる[34]。 0.63
IV. EXPERIMENTAL METHODS CRANK is a voice conversion software that implements several variations of VQ-VAE along with a speaker adversarial training and generative adversarial networks [25]. IV。 実験方法 CRANKは,VQ-VAEの様々なバリエーションを実装した音声変換ソフトウェアである。
訳抜け防止モード: IV。 実験方法 CRANKはVQ-VAEの様々なバリエーションを実装した音声変換ソフトウェアで、話者対向訓練も行う 生成的敵ネットワーク [25 ]
0.58
For the current project, we used CRANK’s best performing model from [25], which is the CycleGAN VQ-VAE with Short Term Fourier Transform (STFT) loss with a speaker adversarial network. 現在のプロジェクトでは、[25]からCRANKの最高のパフォーマンスモデルを使用し、[25]はCycleGAN VQ-VAEで、短期フーリエ変換(STFT)損失と話者対向ネットワークを損失した。 0.75
The VQ-VAE implementation was a hierarchical implementation, similar to that of DeepMind’s WaveNet architecture [25]. VQ-VAEの実装は階層的な実装で、DeepMindのWaveNetアーキテクチャ [25] と同様です。 0.65
The CycleGAN VQ-VAE is a least squares GAN (LSGAN) with a cyclic VQ-VAE. サイクロンVQ-VAEは、サイクロンVQ-VAEを持つ最小2乗 GAN (LSGAN) である。 0.64
A pretrained vocoder for speech synthesis was trained on the LJ speech dataset [47], which contains entirely female speakers, and is implemented using the Parallel WaveGAN vocoder repository [48]. 音声合成のための事前訓練されたボコーダを,全女性話者を含むLJ音声データセット[47]で訓練し,Parallel WaveGAN vocoderリポジトリ[48]を用いて実装した。 0.83
Input features provided for CRANK are MLFB, pitch, aperiodicity and spectrum input [25]. CRANKに提供される入力特徴は、MLFB、ピッチ、周期性、スペクトル入力[25]である。 0.67
A. PIPELINE Our experimental pipeline can be found in Figure 2. a.パイプライン 実験パイプラインは図2で確認できます。 0.62
We tested several data-driven approaches, including (1) TTS Adaptation based on speech rate, pause length and pitch, and (2) Voice Conversion, first setting the TTS speech rate and pause length, then adjusting the voice’s spectral components 我々は,(1)発話率,ポーズ長,ピッチに基づくTTS適応,(2)音声変換,まずTTS音声レートとポーズ長を設定し,次に音声のスペクトル成分を調整することを含む,データ駆動型アプローチを試験した。
訳抜け防止モード: 我々は,(1 ) TTS 適応を含む複数のデータ駆動型アプローチを,発話速度,ポーズ長,ピッチに基づいて検証した。 と (2 ) Voice Conversion, first TTS音声レートの設定とポーズ長。 音声のスペクトル成分を調整し
0.88
using voice conversion. The utterance used for all perception experiments was, ”Hi there, I hope you are doing well”. 音声変換を使う。 すべての知覚実験で使われる発声は、”ああ、あなたはうまくやっていることを願っている”。 0.72
Parameters were altered using SSML. パラメータはSSMLで変更した。 0.75
1) TTS Adaptation Approach: Our TTS samples used for the perception study contained 6 TTS voices selected from a set of 9 samples. 1) TTS適応アプローチ: 知覚研究に使用したTTSサンプルは, 9つのサンプルから選択した6つのTS音声を含む。 0.86
We generated these samples using Google TTS 12, which allows for the overall manipulation of Google TTS 12を使ってこれらのサンプルを生成しました。 0.64
(a) loudness, (b) rate-of-speech, and a)大声,大声. (b)発声率、及び 0.56
(c) pitch. The first sample is a baseline TTS, which has no manipulation from the default features (TTS-bl). c) ピッチ。 最初のサンプルはベースラインのTSであり、デフォルト機能(TTS-bl)からの操作は行わない。 0.67
The next sample was a set of 6 TTS voices that were generated using the average features of all speakers for each ambience (TTS-avg). 次のサンプルは、各環境(TTS-avg)の話者の平均的特徴を用いて6つのTTS音声を作成した。 0.78
Finally, two TTS samples were generated with matching loudness and rate-of-speech of TTS-avg but differing levels of pitch. 最後に,TTS-avgの音の大きさと発声速度を一致させて2つのTSサンプルを作成した。 0.61
TTS-low has the same pitch as speaker 714, a female undergraduate student from our dataset, and was between the pitch of TTS-bl and TTSavg. TTS-lowは,TTS-bl と TTSavg のピッチの中間に位置する,本データセットの女子大学生である話者714と同じピッチを持つ。 0.78
TTS-high has a pitch of pitch(TTS-avg) + (pitch(TTSavg)− pitch(TTS-low)). TTSハイはピッチ(TTS-avg) + (ピッチ(TTSavg)−ピッチ(TTS-low))を持つ。 0.87
TTS-low and TTS-high were used to compare varying levels of data-driven selection of pitch in the perception study. TTS-low と TTS-high は、知覚研究において、データ駆動のピッチ選択の様々なレベルを比較するために用いられた。 0.56
The remaining TTS samples (i.e., TTSbl and two ambiences of TTS-avg) were compared with our voice conversion approach. 残りのTSサンプル(TSblとTS-avgの2つの環境)を音声変換法と比較した。 0.73
2) Voice Conversion Approach: Our voice conversion temporal adjustment, approach involved two main steps: followed by spectral adjustment. 2)音声変換アプローチ:我々の音声変換時間調整は2つの主要なステップを伴い,その後スペクトル調整を行った。 0.79
The initial procedures involved separating the human speakers by speaker ID then further separating each speaker’s clips into each of the 6 ambience conditions (speaker-ambience sample). 最初の手順では、人間の話者をスピーカーidで分離し、各話者のクリップを6つのアンビエンス条件(スピーカー・アンビエンスサンプル)にさらに分離する。 0.74
Speakerambience training batches contained between 16 to 41 utterances. 話者訓練バッチは16から41の発話を含む。 0.70
This was in line with the dataset setup used to train CRANK’s CycleGAN VQ-VAE [25]. これは、CRANKのCycleGAN VQ-VAE [25]をトレーニングするデータセット設定と一致している。
訳抜け防止モード: これは使われるデータセットの設定と一致しました CRANK の CycleGAN VQ - VAE [25 ] をトレーニングする。
0.75
This allows speakers to be independent of one another and to demonstrate a given ambience’s effect on voice conversion at an individual level. これにより、話者は互いに独立し、特定の環境が個々のレベルでの音声変換に与える影響を示すことができる。 0.79
Here, we use TTS as the source speaker, and all female speaker-ambience samples in our dataset as the target speakers. ここでは、ソーススピーカーとしてTSを使用し、データセット内のすべての女性話者環境サンプルをターゲットスピーカーとして使用します。 0.62
Voice conversion using CRANK resulted in samples that were slowed down significantly compared to the original source and target speakers’ rate-of-speech. CRANKを用いた音声変換は、元の音源とターゲット話者の発声率と比較して大幅に遅くなった。 0.70
As such, the audio samples generated from our voice conversion approach were その結果,音声変換手法から生成された音声サンプルが得られた。 0.70
12https://cloud.goog le.com/text-to-speec h/ 12https://cloud.goog le.com/text-to-speec h/ 0.13
英語(論文から抽出)日本語訳スコア
Fig. 3. Radar graphs showing the differences amongst collected features across all female speakers in our dataset. 図3。 データセット内のすべての女性話者間で収集された機能の違いを示すレーダーグラフ。 0.63
The dotted circle represents the baseline ambience for all features. 点線円は全ての特徴の基線環境を表す。 0.69
sped up using Audacity’s tempo change function, which maintains spectral envelope and pitch, to match the rate-ofspeech of the original human speaker, 714. audacityのtempo change関数は、スペクトルのエンベロープとピッチを保ちながら、オリジナルの人間の話者714の速度に合致する。
訳抜け防止モード: スペクトルのエンベロープとピッチを維持する、audacityのtempo change関数を使ってスピーディーアップする。 オリジナルの人間の話者である714の発声率に合致する。
0.76
In addition, the TTS samples and voice conversion samples were set to -10.0 dBFS as to be normalized against the background sound to compare the voice quality and rate-of-speech only. さらに、TTSサンプルと音声変換サンプルを10.0dBFSに設定し、背景音に対して正規化し、音声品質と音声率の比較を行った。 0.77
1) How do generated voiced compare to human voices 1)生成音声と人間の声の比較 0.67
2) How are voice conversion generated voices perceived 2)音声変換はどのように知覚されるか 0.76
within ambiences? (3a of research goals) 環境の中で? (研究目標の3a) 0.49
in context? (3b of research goals) 文脈で? (研究目標の3b) 0.37
Temporal Adjustment. Initially, TTS-avg was selected as the source speaker. 時間調整 当初、TS-avgはソーススピーカーとして選択された。 0.54
However, given the perceptually significant differences in voice characteristics (e g natural pitch) between subjects, it was deemed more appropriate to manipulate the source speaker TTS to match that of a individual speaker. しかし、被験者間での音声特性(例えば自然なピッチ)の知覚的に有意な差異を考慮すれば、音源話者TSを個別話者と一致させるのが適切であると考えられた。 0.74
As such, we used the features of speaker 714 to generate our source speaker sample (TTS-714). そこで,話者714の特徴を用いて音源話者サンプルを生成する(tts-714)。
訳抜け防止モード: そのため,話者714の特徴を利用した。 ソーススピーカサンプル(TTS-714)を生成する。
0.82
The ambience specific pre-processing of TTS-714 was integral to the project as voice conversion software primarily uses human speech utterances as source speakers, whereas we are using a synthetic robot voice. TTS-714の環境特化前処理は、音声変換ソフトウェアが主に人間の発話を音源として用いているのに対して、私たちは合成ロボット音声を使用しているため、このプロジェクトに不可欠なものだった。
訳抜け防止モード: TTS-714の環境特化前処理は、プロジェクトとして重要である。 音声変換ソフトウェアは主に人間の発話を音源として使用する。 合成ロボットの声を使っています
0.74
CRANK’s CycleGAN VQ-VAE [25] primarily adjusts spectral features, therefore, non-spectral features, ie. CRANKのCycleGAN VQ-VAE[25]は、主にスペクトルの特徴を調整する。 0.58
loudness and rate-of-speech, were added before the voice conversion process. 音声変換処理前にラウドネスと音速を付加した。 0.64
This resulted in 211 temporally adjusted TTS-714 clips containing speech utterances of the scripted portions for both waiter and customer roles for each ambience condition. その結果、211個の時間調整されたtts-714クリップが、各アンビエンス条件で、ウェイターと顧客の役割の両方の台本部分の音声発話を含む。 0.58
Spectral Adjustment. We used this synthetic dataset, alongside the human (714) voice clips, to train CRANK’s CycleGAN VQ-VAE model for each ambience. スペクトル調整。 この合成データセットを、人間の(714)音声クリップとともに使用し、それぞれの環境に対してCRANKのCycleGAN VQ-VAEモデルをトレーニングした。 0.68
Because we used a non-parallel model we were able use unscripted data, which is not present in the TTS samples, as a target. 非並列モデルを使用していたため、ターゲットとしてTSサンプルには存在しない非記述データを使用することができたのです。 0.71
This means that utterances can be generated that have never been heard by the trained model before, further adding socially and contextually appropriate data to our speaker-ambience training batches. これは、トレーニングされたモデルでこれまで聞いたことのない発話を生成でき、さらに社会的かつ文脈的に適切なデータを話者環境訓練バッチに追加することを意味します。 0.59
Finally, the waiter utterances for our source TTS were held out of training to be used as evaluation samples. 最後に, ソースTSのウェイター発話をトレーニングから切り離し, 評価サンプルとして使用した。 0.64
We then used 6 evaluation samples, 1 for each ambience. 次に、各環境毎に6つの評価サンプルを使用しました。 0.57
B. PERCEPTION STUDY The perception study leveraged Mechanical Turk and Survey Monkey with 25 Canadian participants who were fluent English speakers, with 100 Human Intelligence Tasks (HITs) completed with a 98% acceptance rate. B.受験研究 知覚調査では、機械トルコ語とサーベイ・モンキーを用いて25人のカナダ人が英語話者であり、100人のヒューマンインテリジェンスタスク(HIT)が98%の受け入れ率で完了した。 0.68
There were 4 research questions explored: 調査された4つの研究質問があります 0.58
3) How are voice conversion generated voices perceived when paired with the incorrect ambience? 3)不適切な環境下での音声変換はどのように知覚されるか? 0.79
(3b of research goals) 4) How does a data driven pitch manipulation for TTS (研究目標の3b) 4)TSのためのデータ駆動ピッチ操作法 0.54
impact human perception? 人間の知覚に影響を与える? 0.51
(3c of research goals) Listeners were first asked to use headphones and calibrate their audio. (3c)研究目標 リスナーはまずヘッドフォンとオーディオの調整を依頼された。 0.55
Next for each of the above research questions participants were told the provided audio sample was the voice of Pepper the robot, who was about to take your order at one of the 6 given ambience locations. 次に、被験者が提供した音声サンプルは、Pepperの声で、そのロボットは、与えられた6箇所のうちの1箇所で注文を取ろうとしていた。 0.64
They were given the same scenario description provided during dataset collection, e g ”You are a customer dining at the city’s fanciest restaurant. 彼らは、データセット収集中に提供されたのと同じシナリオ記述を与えられた。
訳抜け防止モード: 彼らはデータセット収集中に提供されたのと同じシナリオ記述を与えられた。 あなたは市のファシストレストランで食事をしている顧客だ。
0.66
The atmosphere is warm, the music is slow and romantic, and the lights are dimmed. 雰囲気は温かく、音楽は遅く、ロマンチックで、光は薄められています。 0.67
You have waited months to take your date out to this particular restaurant. あなたはこの特定のレストランにデートするのを何ヶ月も待った。 0.79
In hopes to impress your date you wish to get the duck, the restaurants staple item. デートを印象づけたいなら、アヒルを欲しがって、レストランのスタイリッシュなアイテムだ。 0.58
Pepper, the robot, is going to take your order. ロボットのPepperは、あなたの注文を受け取ります。 0.66
” After listening to Peppers’ voice over the background sound, participants were asked to respond to 7 statements using a 7-point likert-scale ranging from 1 (strong disagree) to 7 (strongly agree). 背景音でpeppersの声を聴いた後、参加者は7つのステートメントに対して、1(強い意見の不一致)から7(強い同意)までの7つのポイントのlikert-scaleを使って応答するよう求められた。
訳抜け防止モード: と、peppersの声を背景音で聴いた。 参加者は、7-point likert - scale from 1 (strong disagree ) to 7 (strong agree ) を使って7つのステートメントに回答するよう求められた。
0.74
The following were the statements provided: (1) Pepper’s voice sounds socially appropriate for the scene (figure 1), (2) Pepper’s voice sounds robotic, (3) Pepper is aware of the surrounding ambience, (4) Pepper makes me feel comfortable, (5) Pepper makes me feel like I am in the given ambience location, (6) Pepper is too loud, and (7) Pepper is too quiet. 1)ペッパーの声は場面に社会的に適している(図1)、(2)ペッパーの声はロボットで、(3)ペッパーは周囲の環境を認識し、(4)ペッパーは私を快適に感じさせ、(5)ペッパーは私が与えられた環境の場所にいるように感じさせ、(6)ペッパーは声が大きすぎる、(7)ペッパーは静かすぎる。
訳抜け防止モード: 1)pepperの声は、シーンに社会的に適切である(図1)。 (2)pepperの声はロボットのように聞こえるが、(3)pepperは周囲の曖昧さを認識している。 (4)ペッパーは私に快適さを与えてくれる。 (5)pepperは、与えられたアンビエンス位置にいるように感じさせてくれる。 (6)唐辛子が大きすぎる。 そして(7)ペッパーは静かすぎる。
0.79
A. Trends in Collected Data A. 収集データの動向 0.68
V. RESULTS V. ResuLTS 0.37
A subset of the overall dataset is displayed in Figure 3. データセット全体のサブセットは図3に表示されます。 0.82
These radar plots illustrate various features present in different ambience and social contexts in our underlying dataset. これらのレーダプロットは、我々の基盤となるデータセットに異なる環境や社会的文脈に存在する様々な特徴を示しています。 0.49
The first radar plot shows the differences between two ambiences at a similar noise level but with differing social contexts, ie. 第1のレーダプロットは、同じ騒音レベルにおいて2つの環境の違いを示すが、社会的文脈が異なる。 0.67
fine dining (formal) and caf´e (casual). ファインダイニング(フォーマル)とcaf'e(セシアル)。 0.56
Loudness related features appear to be similar, spectral features appear ラウドネス関連の特徴は似ているように見え、スペクトル的特徴が現れる 0.66
英語(論文から抽出)日本語訳スコア
Fig. 4. RQ 1: Comparison of the perceptual rates of four voice types for fine dining (left two) and night club (right two) 図4。 rq 1: ファインダイニング(左2人)とナイトクラブ(右2人)における4種類の音声の知覚率の比較 0.68
Fig. 5. RQ 2 : Perception study comparing adapted voice conversion voices against each of the ambience conditions 図5。 RQ2 : それぞれの環境条件に対する適応音声変換音声の比較による知覚研究 0.76
notably different. This suggests that in the casual setting of a cafe, a wider pitch range and higher median pitch may be preferred. 特に違う これはカフェのカジュアルな設定では、より広いピッチ範囲と高い中央値ピッチが好ましいことを示唆している。 0.56
For the second radar graph, two similarly loud ambiences were compared. 第2のレーダーグラフでは、同様に2つの大きなアンビエンスを比較した。 0.58
Participants experienced a bright, lively restaurant ambience with family-style polka music and trumpet (140 BPM) or a dark night club with electronic music (125 BPM). 参加者は、家族スタイルの水玉音楽とトランペット(140 BPM)や、電子音楽(125 BPM)を備えた暗い夜のクラブで明るく活発なレストラン環境を経験した。 0.72
As expected in Lombard speech, both ambiences had a high median pitch and lower than baseline pitch range, however, the pitch range for the lively restaurant was slightly higher. ランゴバルド語で期待されていたように、両アンビエンスとも高い中央ピッチを持ち、ベースラインピッチの範囲よりも低いが、ライブレストランのピッチ範囲はわずかに高かった。 0.59
It is possible that the joyful music with a large pitch range may have induced synchrony in vocal pitch patterns compared to the monotonous electronic beat. 単調な電子ビートと比較して、大きなピッチ範囲を持つ快楽音楽が声帯パターンの同期を誘導した可能性がある。 0.66
Another avenue to investigate may be the level of white noise, which may be perceived as higher in the night club. もう一つ調べるべき道は白色雑音のレベルであり、夜のクラブでは高いと見なされるかもしれない。 0.72
Shimmer, another feature representative of Lombard speech though hoarseness appears to be more pronounced in the night club than the lively restaurant, perhaps another affect of the joyful ambience. シャンマーはロンバルドのスピーチのもう一つの代表的人物だが、生鮮なレストランよりもナイトクラブの方が声が強いようだ。 0.57
Lastly, overall speech rate appeared notably different between conditions. 最後に, 全体の発話速度は条件によって顕著に異なっていた。 0.51
This difference may be due to the pause rate, which was higher in the lively, indicating more pauses were present in the overall utterance. この違いは、ライブで高いポーズレートが、全体の発話により多くのポーズが存在したことを示しているためかもしれない。
訳抜け防止モード: この違いは、活気を増した停止率によるものかもしれない。 全体的な発話には より多くの一時停止があった
0.64
Further indication that we need to develop TTS voices that can slow down by extending pauses. 停止期間を延ばすことで速度を落とせるTTS音声を開発する必要があることを示す。 0.68
The last radar plot shows the differences between the noisy bar and quiet bar with a background ambiences of -21 dBFS and -31 dBFS respectively. 最後のレーダープロットは、背景環境が-21 dBFSと-31 dBFSのノイズバーと静かなバーの違いを示している。 0.77
We once again see features associated with Lombard speech in the noisy ambience including higher energy, shimmer, median pitch and intensity with a decreased pitch range. 我々はまた,高エネルギー,シマー,中央値ピッチ,高音域の強度など,低音域におけるロンバルド音声に関連した特徴を見出した。 0.61
Whereas the quiet bar had a higher spectral slope and pitch range and speech rate which may suggest the speaker had an increased liveliness for this ambience. 静かなバーは高いスペクトル傾きとピッチ範囲と発話速度を持ち、この環境下では話者の活気が増したことが示唆される。 0.74
1) Statistical Tests: The data for this study was collected as a repeated measures experiment. 1) 統計的検査: 繰り返し測定実験として収集した。
訳抜け防止モード: 1)統計試験 : 本研究のデータは, 繰り返し測定実験として収集された。
0.89
Six treatments and a baseline, each of the ambiences, were applied to each of the study participants. 被験者それぞれに6つの治療と1つのベースライン(それぞれアンビエンス)を施した。 0.59
Each pair of study participants were それぞれの研究参加者は 0.74
independent, however, within the pair of waiter and customer we do not have independence as synchrony and mimicking is expected to occur.There was no randomization on the order of ambience, as such the ambiences were applied in the same order for each experiment. しかし, ウェイターと客のペア内では, 同期や模倣として独立性を持たず, 環境順のランダム化は行わず, それぞれの実験に同じ順序で環境が適用された。 0.67
In future studies it would be beneficial to increase the number of participants and complete a full Latin Square Design to better understand carry over effect. 将来の研究では、参加者の数を増やし、完全なラテン・スクエア・デザインを完成させて効果をよりよく理解することが有益であろう。
訳抜け防止モード: 将来の研究では 参加者数を増加させ、完全なラテン正方形デザインを完成させ、効果の持ち越しをよりよく理解する。
0.74
We completed repeated measures ANOVA (rANOVA) for each of the extracted voice features. 抽出した音声特徴のそれぞれに対して,ANOVA(rANOVA)の繰り返し測定を完了した。 0.69
Due to the small sample size of participants and lack of randomization it is difficult to draw formal conclusions, yet, we suggest features that may prove useful and warrant further investigation. 参加者のサンプルサイズが小さかったり、ランダム化の欠如により、正式な結論を導き出すことは困難である。
訳抜け防止モード: 参加者のサンプルサイズが小さいこととランダム化の欠如のため、正式な結論を出すのは難しい。 ですが 役に立つ機能や さらなる調査の保証を 提案します。
0.63
Energy (p < 0.001), spectral slope (p < 0.001) , max (p < 0.001) and mean (p < 0.001) intensity, pause rate (p = 0.002) and mean pitch (p = 0.06) were all significant at a significance threshold of α = 0.1. エネルギー (p < 0.001) , スペクトル傾斜 (p < 0.001) , max (p < 0.001) および平均 (p < 0.001) 強度, ポーズ率 (p = 0.002) および平均ピッチ (p = 0.06) はいずれもα = 0.1の有意閾値で有意であった。 0.86
B. Perception Study Results 1) RQ 1 : How do generated voices compare to human voices within ambiences? B.知覚研究結果 1)RQ 1 : 生成音声は環境内の人間の声とどのように比較されるか? 0.70
: TTS-avg, TTS-bl, our voice conversion approach and human voice were rated by participants for the fine dining and night club ambiences. TTS-avg, TTS-bl, 音声変換アプローチ, 人間の声は, ディニング・ナイトクラブの参加者によって評価された。 0.73
These ambiences were chosen due to their polarity in formality and loudness. これらの環境は形式性や大声さの極性から選ばれた。 0.68
The voice conversion voice was rated the lowest for statement 1 (appropriateness), 3 (awareness), and 4 (comfort), followed by the TTS-bl, yet, TTS-bl was ranked as sounding the most robotic. 音声変換音声は、文1(適切性)、3(認識性)、4(快適性)に対して最も低い評価を受け、続いてtts-blが続いたが、tts-blは最もロボット性が高いと評価された。
訳抜け防止モード: 音声変換音声は文1の最低値(適切度)と評価された。 3(意識),4(快適)およびTS-bl。 しかし、TS - blは最もロボティックな音として評価された。
0.74
This is most likely due to the low quality samples generated by CRANK, which may indicate that more audio samples are required for each speakerambience training batch. これは、CRANKが生成した低品質のサンプルが、各話者訓練バッチにより多くのオーディオサンプルを必要とすることを示唆しているためであろう。 0.68
Additionally, all generated voices were ranked noticeably lower than the human voice (see Figure 4). さらに、生成された全ての音声は人間の声よりも顕著に低いランクであった(図4参照)。 0.68
This indicates that a human voice, confirmed with a post-hoc tukey test, is more comforting and socially appropriate for the ambiences, p<0.05. このことは、ポストホックチューキーテストで確認された人間の声が、環境に対してより快適で社会的に適していることを示し、p<0.05。 0.60
Although human perceivers prefer the human voice, they also prefer a TTS that has the pitch altered to the context, compared to that 人間の知覚者は人間の声を好むが、それに比べてピッチが文脈に変化したTSも好んでいる。 0.75
英語(論文から抽出)日本語訳スコア
Fig. 6. RQ 4: A comparison of perceptual rate in four voice types 図6。 RQ 4: 4種類の音声における知覚率の比較 0.75
of the TTS-bl. This result adds support to our goal that an adaptive TTS, that uses data driven methods, is preferred. TTS-blの略。 この結果は、データ駆動型メソッドを使用する適応型TSが望ましいという私たちの目標をサポートする。 0.68
This is further supported in RQ 4. これはRQ 4でさらにサポートされる。 0.78
2) RQ 2 : How are voice conversion generated voices perceived in context? 2)RQ2 : 文脈における音声変換はどのように認識されるか? 0.75
: Our 6 ambience specific voice conversion samples were compared. 環境特異的音声変換サンプルを6つ比較した。 0.70
The quiet bar, noisy bar and night club (see Figure 5) were rated the highest for appropriateness, awareness, comfort and statement 5 (ambience feeling). 静かなバー、騒々しいバー、ナイトクラブ(図5参照)は、適切さ、意識、快適さ、ステートメント5(環境感)が最も高く評価された。 0.74
This indicates the Pepper with voice conversion was socially and contextually appropriate and comforting in conditions that required a Lombard effect. これは、音声変換を伴うペッパーが社会的かつ文脈的に適切で、ロンバルド効果を必要とする条件下で快適であったことを示している。 0.48
The fine dining condition was deemed to be the least socially appropriate, least comfortable and most robotic and the lively restaurant condition was deemed to have the least awareness and contextual appropriateness. 美味しい食事条件は、社会的に最も適切で、最も快適で、最もロボット的で、生き生きとした食事条件は、最も意識が低く、文脈的に適切であると考えられた。 0.55
3) RQ 3 : How are voice conversion generated voices perceived when paired with the incorrect ambience? 3)RQ3 : 誤った環境と組み合わせた音声変換はどのように知覚されるか? 0.81
: Three components were tested: (1) voice conversion sample for fine dining overlaid on background sound for caf´e, (2) voice conversion sample for caf´e overlaid on background sound for fine dining, and (3) voice conversion sample for night club overlaid on background sound for fine dining. その結果,(1)caf'eの背景音に対する音声変換サンプル,(2)ファインダイニングのための背景音に対するcaf'eの音声変換サンプル,(3)ファインダイニングのための背景音に対するナイトクラブオーバーレイド音声変換サンプルの3成分が得られた。 0.71
Component (1) resulted in a boost for statements on appropriateness, awareness, comfort and ambience feeling compared to being overlaid with their respective matching ambiences. 成分(1)は, それぞれが一致した環境にオーバーレイされた場合と比較して, 適切さ, 意識, 快適さ, 環境感に関する発言が促進された。 0.63
Component (2) also resulted in improvements compared to their respective correct pairings. component (2)は、それぞれの正しいペアリングと比べて改善されました。 0.64
However, (1) was rated higher than (2). しかし、(1)は(2)よりも格付けが高かった。 0.71
This indicates that the fine dining voice may have been more suited for the caf´e. これは、微細な食声がカフェにもっと適していたことを示唆している。 0.54
It is important to note that the fine dining condition was always first and so it may have taken time for participants to adjust to the experiment protocol. ファインダイニング条件が常に第一であり、参加者が実験プロトコルに順応するのに時間がかかった可能性があることに留意する必要がある。 0.68
Appropriateness, awareness, comfort and ambience feeling were rated the lowest out of all three conditions for (3). 適度性,意識性,快適性,両立感は,3条件中最も低く評価された(3)。 0.80
This result suggests that a voice suited for a loud social environment does not suit a quiet formal restaurant. この結果は、大声の社会環境に適した声は、静かなフォーマルなレストランに合わないことを示唆している。 0.61
4) RQ 4 : How does perception of a data driven pitch manipulation for TTS compare to one randomly selected? 4) RQ 4 : TTSのためのデータ駆動ピッチ操作の知覚は、ランダムに選択された1つと比較してどうか? 0.70
: Finally, TTS-bl, TTS-avg, TTS-low, and TTS-high were overlaid on the caf´e background sound and compared. 最後に, TTS-bl, TTS-avg, TTS-low, TTS-high の背景音をオーバーレイし, 比較した。 0.73
The TTS-bl was rated the lowest for appropriateness, awareness, comfort and ambience feeling. TTS-blは, 適性, 意識, 快適感, 環境感の最低値と評価された。 0.66
TTS-bl was deemed to be the most robotic sounding, which could contribute to why it had low ratings in other categories. TTS-blは最もロボティックな音色であるとされ、他のカテゴリーでは低評価であった。 0.73
The results (as shown in Figure 6) indicate that the human pitched TTS (TTSlow) was deemed more socially and contextually appropriate, as well as comforting, rating highest on appropriateness, comfort and ambience feeling, and rated as least robotic その結果(図6に示すように)、ヒトの投球したTTS(TTSlow)は、快適さ、快適さ、環境感に最も高く評価され、最小ロボティクスとして評価された。 0.59
sounding. TTS-high condition was rated second highest for awareness, followed by TTS-low. 音がする TTS高値が2位, TTS高値が2位であった。 0.68
Altogether, using a data driven method to alter pitch demonstrates that humans prefer pitch that matched one specific human’s pitch and when that pitch matched the current social context and ambient environment. また、データ駆動方式を使ってピッチを変えることで、人間は特定の人間のピッチにマッチするピッチを好み、そのピッチが現在の社会的状況や環境にマッチするかどうかを示す。
訳抜け防止モード: データ駆動方式でピッチを変えること 人間が特定の人間のピッチに合致したピッチを好むことを実証する そして、そのピッチが現在の社会的コンテキストと環境と一致するとき。
0.63
VI. DISCUSSION AND LIMITATIONS This work provided a novel protocol to collect realistic data in order to gain insight into how humans perceive robot voices that adapt to different ambient and social contexts. VI。 議論と限界 この研究は、人間が周囲や社会的文脈に適応するロボットの声をどのように知覚するかを理解するために、現実的なデータを集める新しいプロトコルを提供した。 0.64
Significant and notable features from a total of 12 speakers are also provided. 合計12人の話者による重要な特徴と特筆すべき特徴も提供される。 0.60
One main take away is humans prefer a human voice that matches the social and ambient context, suggesting that there is still a large gap to bridge between current TTS and human voice in these contextual scenarios. 一つは、人間は社会と環境のコンテキストにマッチする人間の声を好むため、これらの文脈シナリオにおいて、現在のttsと人間の声の間には大きなギャップがあることを示唆している。 0.66
Although humans may have preferred the TTS to voice conversion, we saw a preference for TTS that are data driven and that correspond to a individual speaker altered to match the underlying ambient condition and social context. 人間は声の変換よりもTSを好みましたが、データ駆動のTSを好み、基礎となる環境条件や社会的文脈に合わせた個々の話者に対応するTSを好みました。 0.67
The low perception ratings for voice conversion are likely due to the voice conversion’s quality, which could be attributed to the speaker-ambience batch sizes. 音声変換の認識率の低さは、おそらく音声変換の品質によるもので、これは話者環境のバッチサイズに起因する可能性がある。 0.68
As voice conversion is a flexible and adaptive solution for speech synthesis, it shows promise as spectral features in our voice conversion samples were noticeably different between quiet and loud ambiences as described by raters in RQ 2 of the perception study. 音声変換は音声合成のための柔軟かつ適応的なソリューションであるため,音声変換サンプルのスペクトル特性は,知覚研究のrq2に記述されているように,静音と大声の曖昧さで顕著に異なっていた。 0.79
One limitation in our study is the carryover effect. 我々の研究の限界は輸送効果である。 0.63
While a 1 min break was introduced between ambient conditions, there may still have been some residual context from one ambience to another. 環境条件の間には1分間の休憩が導入されたが、ある環境から別の環境への残留状況がまだあるかもしれない。 0.67
In addition, the fine dining restaurant was introduced first and speakers were initially adjusting to the experiment setup; this could have impacted the features for this initial condition. さらに、最初にファインダイニングレストランが導入され、まずスピーカーが実験のセットアップに調整していた。
訳抜け防止モード: また、まず高級食堂を導入し、まず実験装置に合わせてスピーカーを調整した。 これは、この初期状態の特徴に影響を及ぼす可能性がある。
0.71
In addition, scripts varied slightly, as such some features could have been further influenced through word choice. さらに、いくつかの特徴が単語の選択によってさらに影響された可能性があるため、スクリプトはわずかに変化した。 0.60
Fully randomizing the sequence conditions can be a solution. シーケンス条件の完全なランダム化は解決策となる。 0.76
Another limitation was that, in order to limit independent variables, there was only one phrase for the perceptual experiments, ”Hi there, I hope you’re doing well. もう一つの制限は、独立変数を制限するために、知覚実験のためのフレーズが1つしかなかったことだ。
訳抜け防止モード: もう一つの制限は、独立変数を制限するためである。 知覚実験のフレーズは1つしかありませんでした。 うまくやっていることを願っている。
0.75
” This phrase has a positive valence to it, and it is possible the voice conversion samples did not match this valence. ”この句には肯定的なヴァレンスがあり、音声変換のサンプルはこのヴァレンスと一致しなかった可能性がある。 0.68
In the future, we hope to increase data collection in order to obtain every combination of ambience condition. 今後,環境条件のあらゆる組み合わせを得るため,データ収集を拡大していきたいと考えています。 0.75
Future studies would also use the above collected features for further assessment. 今後の研究では、上記の特徴をさらなる評価に利用する予定である。 0.60
In addition, increasing speaker-ambience batch size and duration of conditions may provide a higher quality output for our voice conversion approach. さらに,話者・アンビエンス・バッチサイズと条件の持続時間の増加は,音声変換手法において高品質な出力をもたらす可能性がある。 0.68
Exploring other avenues for automatic speech synthesis that is adaptive to different ambience and social context will also be explored. 異なる環境や社会的文脈に適応した自動音声合成のための他の方法も検討する。
訳抜け防止モード: 異なる環境と社会的文脈に適応した自動音声合成のための他の道を探る 調査も行います
0.76
ACKNOWLEDGMENT The authors would like to thank Payam Jome Yazdian, Marine Chamoux, Susana Sanchez-Restrepo and Zhi Yuh Ou Yang for their valuable discussions on this work. 承認 著者は、Payam Jome Yazdian氏、Marine Chamoux氏、Susana Sanchez-Restrepo氏、Zhi Yuh Ou Yang氏によるこの作業に関する貴重な議論に感謝したい。 0.44
英語(論文から抽出)日本語訳スコア
REFERENCES [1] H. A. C. Maruri, S. Aslan, G. Stemmer, N. Alyuz, and L. Nachman, “Analysis of contextual voice changes in remote meetings,” in Interspeech, 2021, pp. 2521–2525. 参考 [1] H. A. C. Maruri, S. Aslan, G. Stemmer, N. Alyuz, L. Nachman, “A Analysis of contextual voice change in remote meeting” in Interspeech, 2021, pp. 2521–2525。
訳抜け防止モード: 参考 [1 ]H. A. C. Maruri, S. Aslan, G. Stemmer, N. Alyuz,L. Nachman, “リモートミーティングにおける文脈的音声変化の分析” In Interspeech , 2021 , pp . 2521–2525 .
0.68
[2] A. Elkins and D. Derrick, “The sound of trust: Voice as a measurement of trust during interactions with embodied conversational agents,” Group. [2] a. elkinsとd. derrickは、”the sound of trust: voice as a measurement of trust during interaction with embodied conversational agents”と書いている。 0.40
Decis. Negot. , vol. デシス Negot ヴォル。 0.33
22, pp. 897–913, 2013. 22, pp. 897-913, 2013。 0.87
[3] I. Torre, A. B. Latupeirissa, and C. McGinn, “How context shapes the appropriateness of a robot’s voice,” in ROMAN, 2020, pp. 215–222. [3] i. torre, a. b. latupeirissa, and c. mcginn, “how context shapes the appropriateness of a robot’s voice”. roman, 2020, pp. 215–222. 英語)
訳抜け防止モード: [3 ]I. Torre, A. B. Latupeirissa, C. McGinn ロボットの声の適切さをどのように形作るか」 ROMAN , 2020 , pp. 215-222。
0.73
[4] S. Ivanov, U. Gretzel, K. Berezina, M. Sigala, and C. Webster, “Progress on robotics in hospitality and tourism: a review of the literature,” J. Hosp. J. Hospはこう言う: “[4]S. Ivanov, U. Gretzel, K. Berezina, M. Sigala, C. Webster, “ホスピタリティと観光におけるロボティクスの進歩:文献のレビュー”。 0.86
Tour. Technol. , 2019. ツアー テクノル , 2019. 0.45
[5] A. Henschel, G. Laban, and E. Cross, “What makes a robot social? a review of social robots from science fiction to a home or hospital near you,” Curr. A. Henschel, G. Laban, and E. Cross, “ロボットをソーシャルにするものは何か?
訳抜け防止モード: 5 ] a. henschel、g. laban、e. cross。 ロボットをソーシャルにする理由は何だろうか?サイエンスフィクションから、あなたの近くの家や病院まで、ソーシャルロボットのレビューだ。
0.67
Robot. Rep. , vol. ロボット。 代表。 ヴォル。 0.48
2, 2021. [6] A. Bradlow, Confluent talker- and listener-oriented forces in clear speech production. 2, 2021. 6] a. bradlow, confluent talker- and listener-oriented forces in clear speech production。 0.43
Walter de Gruyter GmbH and Co. KG, 2008, pp. 241–274. Walter de Gruyter GmbH and Co. KG, 2008, pp. 241-274。 0.46
[7] D. Burnham, C. Kitamura, and U. Vollmer-Conna, “What’s new, pussycat? on talking to babies and animals,” Science, vol. D. Burnhamさん、C. Kitamuraさん、そしてU. Vollmer-Connaさんは、赤ちゃんや動物との会話について語っています。
訳抜け防止モード: 【7】d.burnham,c.北村,u.vollmer-conna, 赤ちゃんや動物に話しかけることに関して、pussycatとは何か? 科学専攻。
0.64
296, p. 1435, 2002. 296, p. 1435, 2002。 0.88
[8] C. Lam and C. Kitamura, “Mommy, speak clearly: induced hearing loss shapes vowel hyperarticulation.” 8] C. Lam と C. Kitamura は,「母語:誘発難聴は母音の高調波を誘発する」と明言した。 0.77
Dev. Sci. , vol. 開発。 Sci ヴォル。 0.36
15, no. 2, pp. 212–21, 2012. 15 no. 2, pp. 212-21, 2012 頁。 0.86
[9] C. Mayo, V. Aubanel, and M. Cooke, “Effect of prosodic changes on 9]C. Mayo, V. Aubanel, M. Cooke, “韻律的変化が与える影響 0.82
speech intelligibility,” in Interspeech, vol. とinterspeech, vol.1で述べている。 0.60
2, 2012. [10] D. Pelegrin-Garcia, B. Smits, J. Brunskog, and C. 2, 2012. [10] D. Pelegrin-Garcia, B. Smits, J. Brunskog, C 0.44
-H. Jeong, “Vocal effort with changing talker-to-listener distance in different acoustic environments.” -h。 ジェオン,「異なる音響環境における話し手から聞き手の距離を変えることへの取り組み」 0.69
J. Acoust. j. acoust。 0.78
Soc, vol. 129 4, pp. 1981–90, 2011. Soc, vol。 129, pp. 1981-90, 2011。 0.61
[11] V. Hazan and R. Baker, “Acoustic-phonetic characteristics of speech to counter adverse listening 11]v.ハザンとr.ベイカー「不聴に対する音声の音響・音声的特徴」 0.63
produced with communicative intent conditions,” J. Acoust. とJ. Acoust氏は述べている。 0.35
Soc, vol. 130, pp. 2139–52, 2011. Soc, vol。 130, pp. 2139-52, 2011 頁。 0.58
[12] J. A. Caballero, N. Vergis, X. Jiang, and M. D. Pell, “The sound of J. A. Caballero, N. Vergis, X. Jiang, M. D. Pell, “The Sound of Sound of”
訳抜け防止モード: [12 ]J. A. Caballero, N. Vergis, X. Jiang, とM.D.ペルは言う。
0.75
im/politeness,” Speech communication, vol. im/politeness” 音声コミュニケーション。 0.63
102, pp. 39–53, 2018. 102, pp. 39-53, 2018。 0.82
[13] M. Cooke, S. King, M. Garnier, and V. Aubanel, “The listening talker: A review of human and algorithmic context-induced modifications of speech,” Comput. M. Cooke, S. King, M. Garnier, V. Aubanel, “The listening talker: A review of human and algorithmic context-induced modifieds of speech”. Comput.com(英語) 0.43
Speech Lang. , vol. スピーチラング。 ヴォル。 0.44
28, no. 2, pp. 543–571, 2014. 28, No. 2, pp. 543-571, 2014。 0.94
[14] E. Lombard, “Le signe de l’´el´evation de la voix,” Ana. 14] E. Lombard, “Le signe de l’ ́el ́evation de la voix”. Ana. 0.47
d. Mal. de L’Oreillexdu du larynx [etc], vol. d. 男性。 デ L’Oreillexdu du larynx, vol. (英語) 0.42
37, pp. 101–119, 1911. 37, pp. 101-119, 1911。 0.90
[15] S. D. Craig and N. L. Schroeder, “Text-to-speech software and learning: Investigating the relevancy of the voice effect,” J. Educ. S.D. CraigとN.L. Schroederは、“Text-to-Speech Software and Learning: Investigationing thelevency of the voice effect”と題している。 0.70
Comput. Res., vol. Comput に登場。 0.22
57, no. 6, pp. 1534–1548, 2019. 57, no. 6, pp. 1534–1548, 2019。 0.48
[16] R. Vipperla, S. Park, K. Choo, S. Ishtiaq, K. Min, S. Bhattacharya, A. Mehrotra, A. G. C. P. Ramos, and N. D. Lane, “Bunched lpcnet : Vocoder for low-cost neural text-to-speech systems,” 2020, [Online] Available:arXiv:2008 .04574. R. Vipperla, S. Park, K. Choo, S. Ishtiaq, K. Min, S. Bhattacharya, A. Mehrotra, A. G. C. P. Ramos, N. D. Lane, “Bunched lpcnet : Vocoder for low-cost neural text-to-speech system”, 2020, [Online] available:arXiv:2008 .04574.
訳抜け防止モード: [16 ] R. Vipperla, S. Park, K. Choo, S. Ishtiaq, K. Min, S. Bhattacharya, A. Mehrotra, A. G. C. P. Ramos そしてN. D. Lane氏は,“ Bunched lpcnet : Vocoder for low- cost neural text - to - speech systems”と題する。 2020年, [オンライン]提供開始 : arXiv:2008.04574。
0.73
[17] K. -G. [17]K。 -G。 0.39
Oh, C. -Y. Jung, Y. ああ、C。 -y。 ジュン、y。 0.55
-G. Lee, and S. -G。 Lee, and S. 0.42
-J. Kim, “Real-time lip synchronization between text-to-speech (tts) system and robot mouth,” in ROMAN, 2010, pp. 620–625. -j。 Kim, "Real-time lip sync between text-to-Speech (tts) system and robot mouth" in ROMAN, 2010, pp. 620–625。
訳抜け防止モード: -j。 kim, “real-time lip sync between text - to - speech (tts) system and robot mouth” (英語) 2010年、p.620-625。
0.72
[18] D. Stanton, Y. Wang, and R. Skerry-Ryan, “Predicting expressive speaking style from text in end-to-end speech synthesis,” in SLT, 2018, pp. 595–602. D. Stanton, Y. Wang, R. Skerry-Ryan, “Predicting expressive talking style from text from end-to-end speech synthesis” in SLT, 2018, pp. 595–602。
訳抜け防止モード: 18 ] d. stanton, y. wang, r. skerry - ryan 「最後にテキストから表現力豊かな話し方を予測する」 -"to-end speech synthesis, " in slt, 2018, pp. 595–602 。
0.62
[19] R. Liu, B. Sisman, G. Gao, and H. Li, “Expressive TTS training with [19]R. Liu,B. Sisman,G. Gao,H. Li, “Expressive TTS training with Expressive TTS training” 0.38
frame and style reconstruction loss,” CoRR, 2020. とcorr、2020年。 0.27
[20] G. Sun, Y. Zhang, R. J. Weiss, Y. Cao, H. Zen, A. Rosenberg, B. Ramabhadran, and Y. Wu, “Generating diverse and natural text-tospeech samples using a quantized fine-grained vae and auto-regressive prosody prior,” 2020, [Online]. G. Sun, Y. Zhang, R. J. Weiss, Y. Cao, H. Zen, A. Rosenberg, B. Ramabhadran, Y. Wu, “量子化された微細な静脈と自己回帰的な韻律を使って、多種多様な自然なテキスト音声サンプルを生成する”。
訳抜け防止モード: [20 ]G. Sun, Y. Zhang, R. J. Weiss, Y. Cao, H. Zen, A. Rosenberg, B. Ramabhadran とWuは言う。 多様な自然文の生成 -量子化された細粒度とオート-回帰韻律を用いた音声サンプル」 2020 , [ Online ] .
0.80
Available: arXiv:2002.03788. 利用可能:arXiv:2002.03788。 0.38
[21] J. Alvarez, H. Francois, H. Sung, S. Choi, J. Jeong, K. Choo, K. Min, and S. Park, “Camnet: A controllable acoustic model for efficient, expressive, high-quality text-to-speech,” Appl. J. Alvarez, H. Francois, H. Sung, S. Choi, J. Jeong, K. Choo, K. Min, S. Park, “Camnet: A controllable acoustic model for efficient, expressive, high-quality text-to-speech”. Appl. (英語)
訳抜け防止モード: J. Alvarez, H. Francois, H. Sung, S. Choi, J. Jeong, K. Choo, K. Min, S. Park カムネット : 効率, 表現性, 制御可能な音響モデル high - quality text - to - speech, ” Appl .
0.86
Acoust, vol. aoust, vol. 0.33
186, p. 108439, 2022. 186年、p.108439、2022年。 0.59
[22] Z. Du, B. Sisman, K. Zhou, and H. Li, “Expressive voice conversion: A joint framework for speaker identity and emotional style transfer,” 2021, [Online] Available:arXiv:2107 .03748. 22] z. du, b. sisman, k. zhou, h. li, “expressive voice conversion: a joint framework for speaker identity and emotional style transfer” 2021, [online] available:arxiv:2107 .03748. (英語)
訳抜け防止モード: [22 ]Z. Du, B. Sisman, K. Zhou, H. Li 表現型音声変換 : 話者識別と感情的スタイル伝達のための共同フレームワーク 2021 , [ Online ] available : arXiv:2107.03748.
0.85
[23] S. Yuan, P. Cheng, R. Zhang, W. Hao, Z. Gan, and L. Carin, “Improving zero-shot voice style transfer via disentangled representation learning,” 2021, [Online] Available:arXiv:2103 .09420. S. Yuan, P. Cheng, R. Zhang, W. Hao, Z. Gan, L. Carin, “inmproving zero-shot voice style transfer through disentangled representation learning” 2021, [Online] available:arXiv:2103 .09420。
訳抜け防止モード: [23]S.元、P.陳、R.張、 W. Hao, Z. Gan, L. Carin, “非交叉表現学習によるゼロショット音声スタイルの転送の改善。 2021 , [ Online ] が利用可能: arXiv:2103.09420。
0.65
[24] B. Sisman, J. Yamagishi, S. King, and H. Li, “An overview of voice conversion and its challenges: From statistical modeling to deep learning,” 2020, [Online] Available:arXiv:2008 .03648. B. Sisman, J. Yamagishi, S. King, and H. Li, “An overview of voice conversion and its challenge: from statistics modeling to Deep Learning”, 2020, [Online] available:arXiv:2008 .03648.
訳抜け防止モード: 【24】b.シスマン、j.ヤマギシ、s.キング h. li, “音声変換の概要とその課題 : 統計的モデリングからディープラーニングまで」 2020年版(オンライン版) : arxiv:2008.03648
0.69
[25] K. Kobayashi, W. [25]K.小林,W. 0.41
-C. Huang, Y. -C. -C。 フン、y。 -C。 0.44
Wu, P. L. Tobing, T. Hayashi, and T. Toda, “Crank: An open-source software for nonparallel voice conversion based on vector-quantized variational autoencoder,” 2021, [Online] Available:arXiv:2103 .02858. Wu, P. L. Tobing, T. Hayashi, T. Toda, “Crank: a open-parallel voice conversion for nonparallel voice conversion based based on vector-quantized variational autoencoder”, 2021, [Online] available:arXiv:2103 .02858.
訳抜け防止モード: Wu, P. L. Tobing, T. Hayashi, T. Toda クランク : ベクトル量子化変分オートエンコーダに基づく非並列音声変換のためのオープンソースソフトウェア 2021 , [ Online ] が利用可能: arXiv:2103.02858。
0.76
[26] H. Vu and M. Akagi, “Non-parallel voice conversion based on hierarchical latent embedding vector quantized variational autoencoder,” in Interspeech, 2020, pp. 140–144. [26] h. vu と m. akagi は interspeech, 2020, pp. 140–144 で “階層的潜在埋め込みベクトル量子化変分オートエンコーダに基づく非並列音声変換” を行っている。
訳抜け防止モード: [26 ]H.Vu,M.Akagi,「階層的潜在埋め込みベクトル量子化変分オートエンコーダに基づく非並列音声変換」 In Interspeech , 2020 , pp . 140–144.
0.80
[27] B. Sisman, M. Zhang, M. Dong, and H. Li, “On the study of generative adversarial networks for cross-lingual voice conversion,” in ASRU, 2019, pp. 144–151. [27] b. sisman, m. zhang, m. dong, h. li, “on the study of generative adversarial networks for cross-lingual voice conversion” in asru, 2019, pp. 144–151. (英語)
訳抜け防止モード: [27 ]B.Sisman,M.Zhang,M.D ong,H.Li 「対訳音声変換のための生成的対人ネットワークに関する研究」 ASRU, 2019, pp. 144-151。
0.77
[28] Y. Zhao, W. [28] y. zhao, w. 0.37
-C. Huang, X. Tian, J. Yamagishi, R. K. Das, T. Kinnunen, Z. Ling, and T. Toda, “Voice conversion challenge 2020: Intra-lingual semi-parallel and cross-lingual voice conversion,” 2020, [Online] Available:arXiv:2008 .12527. -C。 huang, x. tian, j. yamagishi, r. k. das, t. kinnunen, z. ling, and t. toda, “voice conversion challenge 2020: intra-lingual semi-parallel and cross-lingual voice conversion” 2020, [online] available:arxiv:2008 .12527 0.40
[29] C. McGinn and I. Torre, “Can you tell the robot by the voice? an exploratory study on the role of voice in the perception of robots,” in HRI, 2019, pp. 211–221. 29] c. mcginnとi. torreは、hri, 2019, pp. 211–221で、“音声でロボットに伝えることはできますか?
訳抜け防止モード: [29]C. McGinnとI. Torreは、“ロボットに声で教えられるか? ロボットの知覚における声の役割に関する探索的研究」 HRI, 2019, pp. 211-221。
0.80
[30] I. Torre, J. Goslin, L. White, and D. Zanatto, “Trust in artificial voices: A ”congruency effect” of first impressions and behavioural experience,” in TMS, 2018. 30] i. torre, j. goslin, l. white, d. zanatto, “trust in artificial voices: a ”congruency effect of first impressions and behavioral experience” in tms, 2018” (英語)
訳抜け防止モード: [30 ]I. Torre, J. Goslin, L. White, そして、D. Zanattoは「人工音声の信頼 : A ” Congruency effect ” of first impressions and behavioral experience」と評した。 TMS、2018年。
0.83
[31] S. -L. [31]S。 -L。 0.38
Lee, I. Lau, S. Kiesler, and C. Y. Chiu, “Human mental models lee, i. lau, s. kiesler, c. y. chiu, 「人間の精神モデル」 0.67
of humanoid robots,” in ICRA, 2005, pp. 2767 – 2772. icra, 2005, pp. 2767 – 2772に記載された。 0.43
[32] R. van den Brule, R. Dotsch, G. Bijlstra, D. Wigboldus, and P. Haselager, “Do robot performance and behavioral style affect human trust?: A multi-method approach,” Int. 32] r. van den brule, r. dotsch, g. bijlstra, d. wigboldus, p. haselager, “ロボットのパフォーマンスと行動スタイルは人間の信頼に影響を与えるか?
訳抜け防止モード: R. van den Brule, R. Dotsch, G. Bijlstra, D. WigboldusとP. Haselagerは、“ロボットのパフォーマンスと行動スタイルは人間の信頼に影響を与えるか? : multi- method approach , ” Int 。
0.86
J. Soc. Robot, vol. J. Soc ロボット、ロボット。 0.53
6, pp. 519–531, 2014. 6, pp. 519-531, 2014。 0.89
[33] S. Kiesler, “Fostering common ground in human-robot interaction,” in 33] s. kiesler著, 『人間とロボットの相互作用における共通基盤を創り出す』 0.65
ROMAN, 2005, pp. 729–734. ROMAN, 2005, pp. 729–734。 0.90
[34] A. Matsufuji and A. Lim, “Perceptual effects of ambient sound on an artificial agent’s rate of speech,” in Companion of HRI, 2021, pp. 67–70. [34] a. matsu fuji, a. lim, “perceptual effects of ambient sound on a artificial agent’s rate of speech” in companion of hri, 2021, pp. 67-70. (英語)
訳抜け防止モード: [34 ]松富士, a. lim, 「エージェントの発話速度に対する環境音の知覚的影響」 hri , 2021 , pp. 67-70 の伴奏で。
0.57
[35] Y. Okuno, T. Kanda, M. Imai, H. Ishiguro, and N. Hagita, “Providing route directions: Design of robot’s utterance, gesture, and timing,” in HRI, 2009, pp. 53–60. [35] y. okuno, t. kanda, m. imai, h. ishiguro, and n. hagita, “providing route directions: design of robot’s utterance, gesture, and timing” in hri, 2009 pp. 53–60。
訳抜け防止モード: [35 ]奥野氏、神田氏、今井氏、 H. IshiguroとN. Hagitaは,「ルートの指示を提供する : ロボットの発話,ジェスチャー,タイミングの設計」 HRI, 2009, pp. 53-60。
0.71
[36] A. H¨onemann and P. Wagner, “Adaptive speech synthesis in a cognitive robotic service apartment: An overview and first steps towards voice selection,” in ESSV, 2015. [36] a. h sonemannとp. wagnerは、2015年にessvで、“adaptive speech synthesis in a cognitive robot service apartment: an overview and first steps towards voice selection”と題した講演を行った。 0.70
[37] S. J. Sutton, P. Foulkes, D. Kirk, and S. Lawson, “Voice as a design material: Sociophonetic inspired design strategies in human-computer interaction,” in ACM, 2019, p. 1–14. S.J. Sutton, P. Foulkes, D. Kirk, S. Lawson, “Voice as a design material: Sociophonetic inspired design strategy in human- computer interaction”, ACM, 2019, pp. 1–14。
訳抜け防止モード: 【37】s.j.サットン,p.ファウルクス,d.カーク, and s. lawson, “voice as a design materials: sociophonetic inspired design strategies in human - computer interaction” acm , 2019 年, p. 1-14。
0.77
[38] N. Lubold, E. Walker, and H. Pon-Barry, “Effects of voice-adaptation and social dialogue on perceptions of a robotic learning companion,” in HRI, 2016, pp. 255–262. N. Lubold, E. Walker, H. Pon-Barryは, HRI, 2016, pp. 255–262で, “音声適応と社会対話がロボット学習仲間の知覚に及ぼす影響” と評した。 0.82
[39] K. Fischer, L. Naik, R. M. Langedijk, T. Baumann, M. Jel´ınek, and O. Palinko, Initiating Human-Robot Interactions Using Incremental Speech Adaptation. K. Fischer, L. Naik, R. M. Langedijk, T. Baumann, M. Jel ́ınek, O. Palinko, Initimental Speech Adaptation による人間とロボットのインタラクションを開始する。 0.71
New York, NY, USA: ACM, 2021, p. 421–425. ニューヨーク・ニューヨーク: acm, 2021, p. 421-425。 0.71
[40] A. Hayamizu, M. Imai, K. Nakamura, and K. Nakadai, “Volume adaptation and visualization by modeling the volume level in noisy environments for telepresence system,” in Proceedings of the Second International Conference on Human-Agent Interaction. 40] a. hayamizu, m. imai, k. nakamura, and k. nakadaiは, 第2回人間とエージェントの相互作用に関する国際会議の議事録において, テレプレゼンスシステムのための騒音環境におけるボリュームレベルをモデル化し, ボリューム適応と可視化を行った。 0.70
ACM, 2014, p. 67–74. 2014年、p.67-74。 0.54
[41] J. Sundberg and M. Nordenberg, “Effects of vocal loudness variation on spectrum balance as reflected by the alpha measure of long-termaverage spectra of speech.” [41] j. sundberg と m. nordenberg は「音声の長期平均スペクトルのアルファ尺度に反映されたスペクトルバランスに及ぼす声の大きさの変化の影響」と述べた。 0.78
J. Acoust. j. acoust。 0.78
Soc. , vol. 120 1, pp. 453–7, 2006. Soc ヴォル。 1201, pp. 453–7, 2006。 0.47
[42] A. Castellanos, J. [42]A. Castellanos, J。 0.45
-M. Bened´ı, and F. Casacuberta, “An analysis of general acoustic-phonetic features for spanish speech produced with the lombard effect,” Speech Commun. -M。 Bened ́ı, and F. Casacuberta, "A Analysis of general acoustic-phonetic features for Spanish speech produced with the lombard effect, Speech Commun。
訳抜け防止モード: -M。 Bened ́ı と F. Casacuberta は「ロンバルド効果によるスペイン語音声の一般的な音響的特徴の分析」と評した。 スピーチコミューン。
0.58
, vol. 20, no. 1, pp. 23–35, 1996. ヴォル。 20巻1頁、p.23-35、1996年。 0.43
[43] M. Mller, “Fundamentals of music processing: Audio, analysis, algo- [43]m. mller著『音楽処理の基礎:オーディオ、分析、アルゴ-』 0.69
rithms, applications,” pp. 24–26, 2015. rithms, applications”. pp. 24-26, 2015年。 0.85
[44] T. IR and P. A, “yeah,” J. Speech Lang. [44] T. IR and P. A, “yeah, J. Speech Lang 0.41
Hear, vol. 63, no. 1, pp. 耳が聞こえます。 63,no.1。 0.46
74–82, 2020. 74–82, 2020. 0.42
[45] A. Lerch, An introduction to audio content analysis : applications in signal processing and music informatics / Alexander Lerch. 45] a. lerch, an introduction to audio content analysis : applications in signal processing and music informatics / alexander lerch
訳抜け防止モード: [45 ] A. Lerch : 音声コンテンツ分析入門 : 信号処理への応用 そして音楽情報学/Alexander Lerch氏。
0.80
Wiley, 2012. 2012年、ワイリー。 0.56
[46] J. Krause and A. Panagiotopoulos, “Speaking clearly for older adults with normal hearing: The role of speaking rate,” J. Speech Lang. j. krauseとa. panagiotopoulosは、“通常の聴覚障害のある高齢者にはっきりと話す: 発話速度の役割。
訳抜け防止モード: [46 ]J. Krause と A. Panagiotopoulos, 正常聴力を有する高齢者に対して明瞭に話すこと J. Speech Lang 。
0.67
Hearing, vol. Hearing, Vol. 聴力。 0.65
62, pp. 1–9, 2019. 62、p.1-9、2019。 0.67
[47] K. Ito and L. Johnson, “The lj speech dataset,” https://keithito.com / K. Ito and L. Johnson, “The lj speech dataset” https://keithito.com / 0.45
LJ-Speech-Dataset/, 2017. lj-speech-dataset/、2017年。 0.40
[48] R. Yamamoto, E. Song, and J. [48] 山本さん e. ソンさん j. 0.60
-M. Kim, “Parallel wavegan: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram,” 2020, [Online]. -M。 kimは、”parallel wavegan: a fast waveform generation model based on generative adversarial networks with multi- resolution spectrogram”([オンライン])と言った。 0.58
Available: arXiv:1910.11480. 発売:arxiv:1910.11480。 0.35
                 ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。