論文の概要: Read the Room: Adapting a Robot's Voice to Ambient and Social Contexts
- arxiv url: http://arxiv.org/abs/2205.04952v1
- Date: Tue, 10 May 2022 15:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-14 12:55:01.127544
- Title: Read the Room: Adapting a Robot's Voice to Ambient and Social Contexts
- Title(参考訳): read the room: ロボットの声を環境や社会的文脈に適応させる
- Authors: Emma Hughson, Paige Tuttosi, Akihiro Matsufuji, Angelica Lim
- Abstract要約: 声を異なる環境や社会的相互作用に適応させることは、人間の社会的相互作用に必要である。
本研究は,様々な社会的・音響的文脈における受容性を最大化するために,ロボットの音声を修正することを目的とする。
- 参考スコア(独自算出の注目度): 0.6316850655772009
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Adapting one's voice to different ambient environments and social
interactions is required for human social interaction. In robotics, the ability
to recognize speech in noisy and quiet environments has received significant
attention, but considering ambient cues in the production of social speech
features has been little explored. Our research aims to modify a robot's speech
to maximize acceptability in various social and acoustic contexts, starting
with a use case for service robots in varying restaurants. We created an
original dataset collected over Zoom with participants conversing in scripted
and unscripted tasks given 7 different ambient sounds and background images.
Voice conversion methods, in addition to altered Text-to-Speech that matched
ambient specific data, were used for speech synthesis tasks. We conducted a
subjective perception study that showed humans prefer synthetic speech that
matches ambience and social context, ultimately preferring more human-like
voices. This work provides three solutions to ambient and socially appropriate
synthetic voices: (1) a novel protocol to collect real contextual audio voice
data, (2) tools and directions to manipulate robot speech for appropriate
social and ambient specific interactions, and (3) insight into voice
conversion's role in flexibly altering robot speech to match different ambient
environments.
- Abstract(参考訳): 声を異なる環境や社会的相互作用に適応させることは、人間の社会的相互作用に必要である。
ロボット工学では, 騒音や静かな環境下での音声認識能力に大きな注目を集めているが, 社会的音声特徴の生成における環境要因を考えると, ほとんど検討されていない。
本研究は,各種レストランにおけるサービスロボットの活用事例から,様々な社会的・音響的文脈における受容性を最大化するために,ロボットの発話を改変することを目的とする。
参加者は7つの異なる環境音と背景画像を入力して、スクリプト化されたタスクとスクリプトなしのタスクで会話する。
音声合成には, 音声変換法に加えて, 環境データに適合するテキストから音声への変換法が用いられた。
そこで我々は,人間が環境と社会的文脈に合った合成音声を好むことを示す主観的知覚調査を行った。
本研究は,(1)実環境下での音声データ収集のための新しいプロトコル,(2)適切な社会的・環境的なインタラクションのためにロボット音声を操作するためのツールと方向,(3)異なる環境に対応するために柔軟にロボット音声を変換する上での音声変換の役割に関する洞察の3つのソリューションを提供する。
関連論文リスト
- ANAVI: Audio Noise Awareness using Visuals of Indoor environments for NAVIgation [26.460679530665487]
より静かなロボット経路計画のためのNAVIgationのための室内視覚を用いた騒音認識手法を提案する。
我々は、模擬住宅の異なるリスナー場所で「インパルス」の音の大きさのデータを生成し、音響騒音予測器(ANP)を訓練する。
動作音響とANPを統合し,車輪付きロボット(Hello Robot Stretch)と脚付きロボット(Unitree Go2)を用いて,これらのロボットが環境の騒音制約に適合するように実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:19:53Z) - SIFToM: Robust Spoken Instruction Following through Theory of Mind [51.326266354164716]
本稿では,認知にインスパイアされた音声指導モデルであるSIFToMを提案し,多様な音声条件下でロボットが人間の指示を実践的に追従できるようにする。
結果から,SIFToMモデルは現状の音声モデルや言語モデルよりも優れており,課題に追従する音声命令に対する人間レベルの精度に近づいていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T02:36:10Z) - No More Mumbles: Enhancing Robot Intelligibility through Speech Adaptation [7.675340768192281]
39名の参加者を対象とした音声理解研究を行った。
実験の結果,音質のよい空間は,知性やユーザ体験と正の相関関係があることが示唆された。
我々は,ロボットの音声パラメータを異なるユーザや空間に適応させる畳み込みニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2024-05-15T21:28:55Z) - Developing Social Robots with Empathetic Non-Verbal Cues Using Large
Language Models [2.5489046505746704]
我々は,音声,行動(妊娠),表情,感情の4種類の共感的非言語的手がかりを社会ロボットで設計し,ラベル付けする。
予備的な結果は、ロボットの反応において「喜び」や「リリー」のような穏やかでポジティブな社会的感情の好みや、頻繁にうなずく動作など、異なるパターンが示される。
我々の研究は、言語と非言語の両方が社会的・共感的なロボットを作る上で不可欠な役割を強調し、人間とロボットの相互作用に関する将来の研究の基盤となる。
論文 参考訳(メタデータ) (2023-08-31T08:20:04Z) - See, Hear, and Feel: Smart Sensory Fusion for Robotic Manipulation [49.925499720323806]
視覚的、聴覚的、触覚的知覚が、ロボットが複雑な操作タスクを解くのにどのように役立つかを研究する。
私たちは、カメラで見たり、コンタクトマイクで聞いたり、視覚ベースの触覚センサーで感じるロボットシステムを構築しました。
論文 参考訳(メタデータ) (2022-12-07T18:55:53Z) - Data-driven emotional body language generation for social robotics [58.88028813371423]
社会ロボティクスでは、人間型ロボットに感情の身体的表現を生成する能力を与えることで、人間とロボットの相互作用とコラボレーションを改善することができる。
我々は、手作業で設計されたいくつかの身体表現から学習する深層学習データ駆動フレームワークを実装した。
評価実験の結果, 生成した表現の人間同型とアニマシーは手作りの表現と異なる認識が得られなかった。
論文 参考訳(メタデータ) (2022-05-02T09:21:39Z) - Synthesis and Execution of Communicative Robotic Movements with
Generative Adversarial Networks [59.098560311521034]
我々は、繊細な物体を操作する際に人間が採用するのと同じキネマティクス変調を2つの異なるロボットプラットフォームに転送する方法に焦点を当てる。
我々は、ロボットのエンドエフェクターが採用する速度プロファイルを、異なる特徴を持つ物体を輸送する際に人間が何をするかに触発されて調整する。
我々は、人体キネマティクスの例を用いて訓練され、それらを一般化し、新しい有意義な速度プロファイルを生成する、新しいジェネレーティブ・アドバイサル・ネットワークアーキテクチャを利用する。
論文 参考訳(メタデータ) (2022-03-29T15:03:05Z) - Robotic Speech Synthesis: Perspectives on Interactions, Scenarios, and
Ethics [2.6959411243976175]
本稿では,非言語および対話指向音声信号,特にバックチャネルの合成の難しさについて論じる。
我々は,人間-ロボットインタラクション研究者の注意を引き、より優れた対話型ロボットを設計することを目的として,関連文献と先行研究の成果を提示する。
論文 参考訳(メタデータ) (2022-03-17T20:24:17Z) - Disambiguating Affective Stimulus Associations for Robot Perception and
Dialogue [67.89143112645556]
知覚された聴覚刺激と感情表現の関連性を学ぶことができるNICOロボットを提供します。
NICOは、感情駆動対話システムの助けを借りて、個人と特定の刺激の両方でこれを行うことができる。
ロボットは、実際のHRIシナリオにおいて、被験者の聴覚刺激の楽しさを判断するために、この情報を利用することができる。
論文 参考訳(メタデータ) (2021-03-05T20:55:48Z) - Self-supervised reinforcement learning for speaker localisation with the
iCub humanoid robot [58.2026611111328]
人の顔を見ることは、ノイズの多い環境での音声のフィルタリングに人間が依存するメカニズムの1つである。
スピーカーに目を向けるロボットを持つことは、挑戦的な環境でのASRのパフォーマンスに恩恵をもたらす可能性がある。
本稿では,人間の初期発達に触発された自己指導型強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-12T18:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。