論文の概要: Read the Room: Adapting a Robot's Voice to Ambient and Social Contexts
- arxiv url: http://arxiv.org/abs/2205.04952v1
- Date: Tue, 10 May 2022 15:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-14 12:55:01.127544
- Title: Read the Room: Adapting a Robot's Voice to Ambient and Social Contexts
- Title(参考訳): read the room: ロボットの声を環境や社会的文脈に適応させる
- Authors: Emma Hughson, Paige Tuttosi, Akihiro Matsufuji, Angelica Lim
- Abstract要約: 声を異なる環境や社会的相互作用に適応させることは、人間の社会的相互作用に必要である。
本研究は,様々な社会的・音響的文脈における受容性を最大化するために,ロボットの音声を修正することを目的とする。
- 参考スコア(独自算出の注目度): 0.6316850655772009
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Adapting one's voice to different ambient environments and social
interactions is required for human social interaction. In robotics, the ability
to recognize speech in noisy and quiet environments has received significant
attention, but considering ambient cues in the production of social speech
features has been little explored. Our research aims to modify a robot's speech
to maximize acceptability in various social and acoustic contexts, starting
with a use case for service robots in varying restaurants. We created an
original dataset collected over Zoom with participants conversing in scripted
and unscripted tasks given 7 different ambient sounds and background images.
Voice conversion methods, in addition to altered Text-to-Speech that matched
ambient specific data, were used for speech synthesis tasks. We conducted a
subjective perception study that showed humans prefer synthetic speech that
matches ambience and social context, ultimately preferring more human-like
voices. This work provides three solutions to ambient and socially appropriate
synthetic voices: (1) a novel protocol to collect real contextual audio voice
data, (2) tools and directions to manipulate robot speech for appropriate
social and ambient specific interactions, and (3) insight into voice
conversion's role in flexibly altering robot speech to match different ambient
environments.
- Abstract(参考訳): 声を異なる環境や社会的相互作用に適応させることは、人間の社会的相互作用に必要である。
ロボット工学では, 騒音や静かな環境下での音声認識能力に大きな注目を集めているが, 社会的音声特徴の生成における環境要因を考えると, ほとんど検討されていない。
本研究は,各種レストランにおけるサービスロボットの活用事例から,様々な社会的・音響的文脈における受容性を最大化するために,ロボットの発話を改変することを目的とする。
参加者は7つの異なる環境音と背景画像を入力して、スクリプト化されたタスクとスクリプトなしのタスクで会話する。
音声合成には, 音声変換法に加えて, 環境データに適合するテキストから音声への変換法が用いられた。
そこで我々は,人間が環境と社会的文脈に合った合成音声を好むことを示す主観的知覚調査を行った。
本研究は,(1)実環境下での音声データ収集のための新しいプロトコル,(2)適切な社会的・環境的なインタラクションのためにロボット音声を操作するためのツールと方向,(3)異なる環境に対応するために柔軟にロボット音声を変換する上での音声変換の役割に関する洞察の3つのソリューションを提供する。
- 全文 参考訳へのリンク
関連論文リスト
- Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - STUDIES: Corpus of Japanese Empathetic Dialogue Speech Towards Friendly
Voice Agent [41.46571444928867]
本稿では,親しみやすい音声エージェントを開発するための音声コーパスSTUDIESを提案する。
我々はSTUDIESコーパスを設計し、対話者の感情に共感を持って話す話者を含むようにした。
その結果,対話型感情ラベルと会話型文脈埋め込みを用いることで,エージェントの感情ラベルを用いて合成した自然度と同程度の音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-28T13:49:59Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Robotic Speech Synthesis: Perspectives on Interactions, Scenarios, and
Ethics [2.6959411243976175]
本稿では,非言語および対話指向音声信号,特にバックチャネルの合成の難しさについて論じる。
我々は,人間-ロボットインタラクション研究者の注意を引き、より優れた対話型ロボットを設計することを目的として,関連文献と先行研究の成果を提示する。
論文 参考訳(メタデータ) (2022-03-17T20:24:17Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Dehumanizing Voice Technology: Phonetic & Experiential Consequences of
Restricted Human-Machine Interaction [0.0]
我々は、要求が音声の収束と低音声の遅延を増大させ、最終的には消費者にとってより自然なタスク体験をもたらすことを示す。
スマートオブジェクトとの対話を開始するために必要な入力を変更することは、消費者の主観的経験と人間の声の客観的な音声的変化の両方において、体系的な変化を引き起こす証拠を提供する。
論文 参考訳(メタデータ) (2021-11-02T22:49:25Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z) - Generating coherent spontaneous speech and gesture from text [21.90157862281996]
人体コミュニケーションは、言語情報(音声)と非言語情報(ジェスチャーや頭の動きなど)の両方を含む
機械学習の最近の進歩は、これらのデータの両方の合成バージョンを生成する技術を大幅に改善した。
私たちはこの2つの最先端技術を初めてコヒーレントな方法で組み合わせました。
論文 参考訳(メタデータ) (2021-01-14T16:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。