論文の概要: No More Mumbles: Enhancing Robot Intelligibility through Speech Adaptation
- arxiv url: http://arxiv.org/abs/2405.09708v1
- Date: Wed, 15 May 2024 21:28:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 15:50:04.612936
- Title: No More Mumbles: Enhancing Robot Intelligibility through Speech Adaptation
- Title(参考訳): 音声適応によるロボットの知性向上
- Authors: Qiaoqiao Ren, Yuanbo Hou, Dick Botteldooren, Tony Belpaeme,
- Abstract要約: 39名の参加者を対象とした音声理解研究を行った。
実験の結果,音質のよい空間は,知性やユーザ体験と正の相関関係があることが示唆された。
我々は,ロボットの音声パラメータを異なるユーザや空間に適応させる畳み込みニューラルネットワークモデルを開発した。
- 参考スコア(独自算出の注目度): 7.675340768192281
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Spoken language interaction is at the heart of interpersonal communication, and people flexibly adapt their speech to different individuals and environments. It is surprising that robots, and by extension other digital devices, are not equipped to adapt their speech and instead rely on fixed speech parameters, which often hinder comprehension by the user. We conducted a speech comprehension study involving 39 participants who were exposed to different environmental and contextual conditions. During the experiment, the robot articulated words using different vocal parameters, and the participants were tasked with both recognising the spoken words and rating their subjective impression of the robot's speech. The experiment's primary outcome shows that spaces with good acoustic quality positively correlate with intelligibility and user experience. However, increasing the distance between the user and the robot exacerbated the user experience, while distracting background sounds significantly reduced speech recognition accuracy and user satisfaction. We next built an adaptive voice for the robot. For this, the robot needs to know how difficult it is for a user to understand spoken language in a particular setting. We present a prediction model that rates how annoying the ambient acoustic environment is and, consequentially, how hard it is to understand someone in this setting. Then, we develop a convolutional neural network model to adapt the robot's speech parameters to different users and spaces, while taking into account the influence of ambient acoustics on intelligibility. Finally, we present an evaluation with 27 users, demonstrating superior intelligibility and user experience with adaptive voice parameters compared to fixed voice.
- Abstract(参考訳): 音声言語間の相互作用は対人コミュニケーションの中心であり、人々は異なる個人や環境に柔軟に音声を適応させる。
ロボットが、他のデジタルデバイスを拡張して、その音声に適応する機能を持たず、固定された音声パラメータに頼っていることは驚きであり、ユーザによる理解を妨げていることが多い。
環境・文脈の異なる39名の被験者を対象とした音声理解調査を行った。
実験中、ロボットは異なる音声パラメータを用いて単語を調音し、参加者は音声の認識とロボットの音声に対する主観的な印象の評価の両方を担った。
実験の結果,音質のよい空間は,知性やユーザ体験と正の相関が認められた。
しかし,ユーザとロボット間の距離の増大がユーザ体験を悪化させる一方で,背景を逸脱させると音声認識精度とユーザ満足度は著しく低下した。
次に私たちは、ロボットのための適応的な音声を作った。
そのため、ロボットは、ユーザが特定の環境で音声言語を理解するのがどれほど難しいかを知る必要がある。
環境音環境がいかに煩わしいかを評価する予測モデルを提案し、その結果、この環境で誰かを理解するのがどれほど難しいかを示す。
そこで我々は,環境音響の影響を考慮しつつ,ロボットの音声パラメータを異なるユーザや空間に適応させる畳み込みニューラルネットワークモデルを開発した。
最後に,27名のユーザを対象に評価を行い,固定音声と比較して,適応音声パラメータによる優れた知能とユーザエクスペリエンスを示す。
関連論文リスト
- Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - SIFToM: Robust Spoken Instruction Following through Theory of Mind [51.326266354164716]
本稿では,認知にインスパイアされた音声指導モデルであるSIFToMを提案し,多様な音声条件下でロボットが人間の指示を実践的に追従できるようにする。
結果から,SIFToMモデルは現状の音声モデルや言語モデルよりも優れており,課題に追従する音声命令に対する人間レベルの精度に近づいていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T02:36:10Z) - Humane Speech Synthesis through Zero-Shot Emotion and Disfluency Generation [0.6964027823688135]
現代の会話システムは、人間の相互作用の感情的な深さと非流動的な特徴を欠いている。
この欠点に対処するため、我々は革新的な音声合成パイプラインを設計した。
このフレームワーク内では、最先端の言語モデルが、ゼロショット設定で人間のような感情と分散の両方を導入する。
論文 参考訳(メタデータ) (2024-03-31T00:38:02Z) - Speech-Gesture GAN: Gesture Generation for Robots and Embodied Agents [5.244401764969407]
仮想エージェントや社会ロボットという形で、身体エージェントが急速に普及している。
音声テキストと音声の発話から関節角度の連続を生成できる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-17T18:46:25Z) - Read the Room: Adapting a Robot's Voice to Ambient and Social Contexts [1.0732907121422146]
本稿では,社会的適切さと環境意識を認知するためのロボット音声スタイルの選択に向けたプロセスと結果について述べる。
N=120人の被験者による実験の結果、異なる環境下での音声スタイルの選択がロボットの知覚的インテリジェンスに影響を及ぼすという証拠が得られた。
論文 参考訳(メタデータ) (2022-05-10T15:10:23Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Whither the Priors for (Vocal) Interactivity? [6.709659274527638]
音声に基づくコミュニケーションは、人間とロボットが対話する最も自然な方法の1つとしてしばしば引用される。
それにもかかわらず、結果として生じる相互作用は自然に他ならない」。
このようなコミュニケーションの失敗は、より深い誤認の兆候である、とここでは主張されている。
論文 参考訳(メタデータ) (2022-03-16T12:06:46Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Self-supervised reinforcement learning for speaker localisation with the
iCub humanoid robot [58.2026611111328]
人の顔を見ることは、ノイズの多い環境での音声のフィルタリングに人間が依存するメカニズムの1つである。
スピーカーに目を向けるロボットを持つことは、挑戦的な環境でのASRのパフォーマンスに恩恵をもたらす可能性がある。
本稿では,人間の初期発達に触発された自己指導型強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-12T18:02:15Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。