論文の概要: Spoken Language Interaction with Robots: Research Issues and
Recommendations, Report from the NSF Future Directions Workshop
- arxiv url: http://arxiv.org/abs/2011.05533v1
- Date: Wed, 11 Nov 2020 03:45:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 00:43:08.279071
- Title: Spoken Language Interaction with Robots: Research Issues and
Recommendations, Report from the NSF Future Directions Workshop
- Title(参考訳): ロボットとの音声言語インタラクション:研究課題と勧告, NSF Future Directions Workshop報告
- Authors: Matthew Marge, Carol Espy-Wilson, Nigel Ward
- Abstract要約: 人間のニーズを満たすには、音声技術とユーザーエクスペリエンス設計における新しい課題に対処する必要がある。
大規模な再設計や大規模なトレーニングデータの収集なしに、より強力な適応手法が必要である。
ロボットはリアルタイムで動作するため、音声処理や言語処理も必要である。
- 参考スコア(独自算出の注目度): 0.819605661841562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With robotics rapidly advancing, more effective human-robot interaction is
increasingly needed to realize the full potential of robots for society. While
spoken language must be part of the solution, our ability to provide spoken
language interaction capabilities is still very limited. The National Science
Foundation accordingly convened a workshop, bringing together speech, language,
and robotics researchers to discuss what needs to be done. The result is this
report, in which we identify key scientific and engineering advances needed.
Our recommendations broadly relate to eight general themes. First, meeting
human needs requires addressing new challenges in speech technology and user
experience design. Second, this requires better models of the social and
interactive aspects of language use. Third, for robustness, robots need
higher-bandwidth communication with users and better handling of uncertainty,
including simultaneous consideration of multiple hypotheses and goals. Fourth,
more powerful adaptation methods are needed, to enable robots to communicate in
new environments, for new tasks, and with diverse user populations, without
extensive re-engineering or the collection of massive training data. Fifth,
since robots are embodied, speech should function together with other
communication modalities, such as gaze, gesture, posture, and motion. Sixth,
since robots operate in complex environments, speech components need access to
rich yet efficient representations of what the robot knows about objects,
locations, noise sources, the user, and other humans. Seventh, since robots
operate in real time, their speech and language processing components must
also. Eighth, in addition to more research, we need more work on infrastructure
and resources, including shareable software modules and internal interfaces,
inexpensive hardware, baseline systems, and diverse corpora.
- Abstract(参考訳): ロボットが急速に進歩するにつれ、社会におけるロボットの可能性を実現するためには、より効果的な人間とロボットの相互作用が必要である。
音声言語はソリューションの一部でなければならないが、音声言語インタラクション機能を提供する能力は依然として非常に限られている。
そこでNational Science Foundationはワークショップを開催し、スピーチ、言語、ロボット工学の研究者たちを集めて、何をすべきかを議論した。
その結果、必要な重要な科学的・工学的な進歩が明らかになった。
私たちの推薦は8つの一般的なテーマに大きく関係している。
まず、人間のニーズを満たすためには、音声技術とユーザエクスペリエンス設計の新しい課題に取り組む必要がある。
第二に、これは言語使用の社会的およびインタラクティブな側面のより良いモデルを必要とする。
第3に、堅牢性のためには、複数の仮説と目標を同時に考慮するなど、ユーザとの高帯域通信と不確実性処理の改善が必要である。
第四に、ロボットが新しい環境、新しいタスク、多様なユーザー人口でコミュニケーションできるように、大規模な再設計や大量のトレーニングデータを集めることなく、より強力な適応方法が必要である。
五つ目は、ロボットが具現化されているため、音声は視線、ジェスチャー、姿勢、動きなどの他のコミュニケーションモダリティと共に機能すべきである。
第6に、ロボットは複雑な環境で動作するため、音声コンポーネントは、ロボットがオブジェクト、場所、ノイズ源、ユーザー、その他の人間について知っていることのリッチで効率的な表現にアクセスする必要がある。
第7に,ロボットはリアルタイムで動作するため,音声処理や言語処理のコンポーネントも必要となる。
より多くの研究に加えて,共有可能なソフトウェアモジュールや内部インターフェース,安価なハードウェア,ベースラインシステム,さまざまなコーパスなど,インフラストラクチャやリソースに関する作業も必要です。
関連論文リスト
- Exploring Large Language Models to Facilitate Variable Autonomy for
Human-Robot Teaming [5.371337604556312]
本稿では,VR(Unity Virtual Reality)設定に基づく,GPTを利用したマルチロボットテストベッド環境のための新しいフレームワークを提案する。
このシステムにより、ユーザーは自然言語でロボットエージェントと対話でき、それぞれが個々のGPTコアで動く。
12人の参加者によるユーザスタディでは、GPT-4の有効性と、さらに重要なのは、マルチロボット環境で自然言語で会話する機会を与えられる際のユーザ戦略について検討している。
論文 参考訳(メタデータ) (2023-12-12T12:26:48Z) - A Human-Robot Mutual Learning System with Affect-Grounded Language
Acquisition and Differential Outcomes Training [0.1812164955222814]
本稿では,ロボットのホメオスタティックなニーズを識別するための,人間とロボットのインタラクション・セットアップを提案する。
我々は,ロボットが内部ニーズに特有のフィードバックを提供する,差分結果学習プロトコルを採用した。
我々は、DOTが人間の学習効率を高めることができるという証拠を発見し、それによってより効率的なロボット言語習得を可能にした。
論文 参考訳(メタデータ) (2023-10-20T09:41:31Z) - HandMeThat: Human-Robot Communication in Physical and Social
Environments [73.91355172754717]
HandMeThatは、物理的および社会的環境における命令理解とフォローの総合評価のためのベンチマークである。
HandMeThatには、人間とロボットの対話の1万エピソードが含まれている。
オフラインとオンラインの強化学習アルゴリズムはHandMeThatでは性能が良くないことを示す。
論文 参考訳(メタデータ) (2023-10-05T16:14:46Z) - A Sign Language Recognition System with Pepper, Lightweight-Transformer,
and LLM [0.9775599530257609]
本研究は,ヒューマノイドロボットPepperがAmerican Sign Language(ASL)を理解するために,軽量なディープニューラルネットワークアーキテクチャを用いた検討である。
組込みシステムに最適化されたASL理解のための軽量で効率的なモデルを導入し,計算資源を保存しながら,迅速な手話認識を実現する。
我々は、Pepper Robotが自然なCo-Speech Gesture応答を生成できるように対話を調整し、より有機的で直感的なヒューマノイドロボット対話の基礎を築いた。
論文 参考訳(メタデータ) (2023-09-28T23:54:41Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - Semantic-Aware Environment Perception for Mobile Human-Robot Interaction [2.309914459672557]
本稿では,移動ロボットのための視覚ベースシステムについて,アプリオリ知識を付加せずにセマンティック・アウェア環境を実現する。
実世界のアプリケーションで我々の手法をテストすることができる移動型ヒューマノイドロボットにシステムをデプロイする。
論文 参考訳(メタデータ) (2022-11-07T08:49:45Z) - Understanding Natural Language in Context [13.112390442564442]
我々は、世界の知識に基づくモデルを持ち、このモデルによる推論と計画によって操作する認知ロボットに焦点を当てる。
本研究の目的は,自然言語の発話をロボットのフォーマリズムに翻訳することである。
我々は、既製のSOTA言語モデル、計画ツール、ロボットの知識ベースを組み合わせてコミュニケーションを改善する。
論文 参考訳(メタデータ) (2022-05-25T11:52:16Z) - Spatial Computing and Intuitive Interaction: Bringing Mixed Reality and
Robotics Together [68.44697646919515]
本稿では,空間コンピューティングを応用し,新しいロボットのユースケースを実現するためのロボットシステムについて述べる。
空間コンピューティングとエゴセントリックな感覚を複合現実感デバイスに組み合わせることで、人間の行動をキャプチャして理解し、それらを空間的な意味を持つ行動に変換することができる。
論文 参考訳(メタデータ) (2022-02-03T10:04:26Z) - Semantics for Robotic Mapping, Perception and Interaction: A Survey [93.93587844202534]
理解の研究は、ロボットに世界が何を意味するのかを決定する。
人間とロボットが同じ世界で活動するようになるにつれ、人間とロボットの相互作用の展望も意味論をもたらす。
ニーズや、トレーニングデータや計算リソースの可用性向上などによって駆動されるセマンティックスは、ロボティクスにおける急速に成長している研究領域である。
論文 参考訳(メタデータ) (2021-01-02T12:34:39Z) - Self-supervised reinforcement learning for speaker localisation with the
iCub humanoid robot [58.2026611111328]
人の顔を見ることは、ノイズの多い環境での音声のフィルタリングに人間が依存するメカニズムの1つである。
スピーカーに目を向けるロボットを持つことは、挑戦的な環境でのASRのパフォーマンスに恩恵をもたらす可能性がある。
本稿では,人間の初期発達に触発された自己指導型強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-12T18:02:15Z) - SAPIEN: A SimulAted Part-based Interactive ENvironment [77.4739790629284]
SAPIENは現実的で物理に富んだシミュレートされた環境であり、音声オブジェクトのための大規模なセットをホストしている。
部品検出と動作特性認識のための最先端の視覚アルゴリズムの評価を行い,ロボットインタラクションタスクの実証を行った。
論文 参考訳(メタデータ) (2020-03-19T00:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。