論文の概要: Ain't Misbehavin' -- Using LLMs to Generate Expressive Robot Behavior in
Conversations with the Tabletop Robot Haru
- arxiv url: http://arxiv.org/abs/2402.11571v1
- Date: Sun, 18 Feb 2024 12:35:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 20:21:27.278902
- Title: Ain't Misbehavin' -- Using LLMs to Generate Expressive Robot Behavior in
Conversations with the Tabletop Robot Haru
- Title(参考訳): テーブルトップロボット「ハル」との会話で表現力のあるロボットの振る舞いをllmで生成する
- Authors: Zining Wang and Paul Reisert and Eric Nichols and Randy Gomez
- Abstract要約: 本稿では,大規模言語モデル(LLM)を利用して,表現行動を伴うロボット応答を生成する,完全自動会話システムを提案する。
提案したシステムを用いて,ボランティアが社会ロボットとチャットし,そのフィードバックを分析し,チャットテキストの厳密な誤り解析を行う。
最も否定的なフィードバックは、会話に限られた影響を及ぼす自動音声認識(ASR)エラーによるものだった。
- 参考スコア(独自算出の注目度): 9.2526849536751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social robots aim to establish long-term bonds with humans through engaging
conversation. However, traditional conversational approaches, reliant on
scripted interactions, often fall short in maintaining engaging conversations.
This paper addresses this limitation by integrating large language models
(LLMs) into social robots to achieve more dynamic and expressive conversations.
We introduce a fully-automated conversation system that leverages LLMs to
generate robot responses with expressive behaviors, congruent with the robot's
personality. We incorporate robot behavior with two modalities: 1) a
text-to-speech (TTS) engine capable of various delivery styles, and 2) a
library of physical actions for the robot. We develop a custom,
state-of-the-art emotion recognition model to dynamically select the robot's
tone of voice and utilize emojis from LLM output as cues for generating robot
actions. A demo of our system is available here. To illuminate design and
implementation issues, we conduct a pilot study where volunteers chat with a
social robot using our proposed system, and we analyze their feedback,
conducting a rigorous error analysis of chat transcripts. Feedback was
overwhelmingly positive, with participants commenting on the robot's empathy,
helpfulness, naturalness, and entertainment. Most negative feedback was due to
automatic speech recognition (ASR) errors which had limited impact on
conversations. However, we observed a small class of errors, such as the LLM
repeating itself or hallucinating fictitious information and human responses,
that have the potential to derail conversations, raising important issues for
LLM application.
- Abstract(参考訳): ソーシャルロボットは、対話を通じて人間と長期の結びつきを確立することを目的としている。
しかし、従来の会話のアプローチは、スクリプト化された対話に依存しており、しばしば対話を維持するのに不足する。
本稿では,よりダイナミックで表現豊かな会話を実現するために,大規模言語モデル(llm)をソーシャルロボットに統合することで,この制限に対処する。
ロボットの性格に相反する表現行動を伴うロボット応答を生成するために,LLMを利用した完全自動会話システムを提案する。
ロボットの動作を2つのモードで組み込む。
1)様々な配送スタイルが可能なtts(text-to-speech)エンジン
2)ロボットの身体動作のライブラリ。
ロボットの音声のトーンを動的に選択し,LLM出力の絵文字をロボット行動生成の手がかりとして利用する,カスタムな最先端の感情認識モデルを開発した。
私たちのシステムのデモはここにある。
そこで,提案するシステムを用いて,ボランティアがソーシャルロボットとチャットする実験を行い,そのフィードバックを分析し,チャットの書き起こしを厳格にエラー解析する。
フィードバックは圧倒的に肯定的であり、参加者はロボットの共感、役立ち、自然性、娯楽についてコメントした。
最も否定的なフィードバックは、会話に限られた影響を及ぼす自動音声認識(ASR)エラーによるものだった。
しかし,LLM自体の繰り返しや幻覚的情報や人間の反応など,会話を損なう可能性があり,LLMアプリケーションにとって重要な問題を提起する,小さな誤りが見られた。
関連論文リスト
- RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - Beyond Text: Improving LLM's Decision Making for Robot Navigation via
Vocal Cues [22.539790310630618]
この研究は、人間とロボットの相互作用に使用されるテキストベースのLarge Language Models(LLM)の重大な欠点を強調している。
テキストを超えて、これらの音声応答のパラ言語的特徴に重きを置くことで、この欠点に対処することができる。
『Beyond Text』は、ソーシャルロボットナビゲーションとより広範な人間-ロボットインタラクションの進歩を示す。
論文 参考訳(メタデータ) (2024-02-05T20:11:56Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Incremental Learning of Humanoid Robot Behavior from Natural Interaction
and Large Language Models [13.350695714201555]
本研究では,自然相互作用から複雑な行動の漸進的な学習を実現するシステムを提案する。
本システムは,ヒューマノイドロボットARMAR-6のロボット認知アーキテクチャに組み込まれている。
論文 参考訳(メタデータ) (2023-09-08T13:29:05Z) - Developing Social Robots with Empathetic Non-Verbal Cues Using Large
Language Models [2.5489046505746704]
我々は,音声,行動(妊娠),表情,感情の4種類の共感的非言語的手がかりを社会ロボットで設計し,ラベル付けする。
予備的な結果は、ロボットの反応において「喜び」や「リリー」のような穏やかでポジティブな社会的感情の好みや、頻繁にうなずく動作など、異なるパターンが示される。
我々の研究は、言語と非言語の両方が社会的・共感的なロボットを作る上で不可欠な役割を強調し、人間とロボットの相互作用に関する将来の研究の基盤となる。
論文 参考訳(メタデータ) (2023-08-31T08:20:04Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - LLM as A Robotic Brain: Unifying Egocentric Memory and Control [77.0899374628474]
Embodied AIは、物理的または仮想的なエンボディメント(つまりロボット)を持つインテリジェントシステムの研究と開発に焦点を当てている。
メモリとコントロールは、具体化されたシステムの2つの不可欠な部分であり、通常、それぞれをモデル化するために別々のフレームワークを必要とします。
ロボット脳として大規模言語モデルを用いて,エゴセントリックな記憶と制御を統一するLLM-Brainという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-19T00:08:48Z) - e-Inu: Simulating A Quadruped Robot With Emotional Sentience [4.15623340386296]
本稿では,人間の感情を検知・理解できるロボットの理解と仮想シミュレーションについて論じる。
我々は、強化学習とソフトウェア工学の概念を組み合わせて、感情を理解できる四足歩行ロボットをシミュレートする。
ビデオ感情検出システムは、99.66%の精度で、ほぼ芸術の状況に匹敵する結果を生み出した。
論文 参考訳(メタデータ) (2023-01-03T06:28:45Z) - Robotic Speech Synthesis: Perspectives on Interactions, Scenarios, and
Ethics [2.6959411243976175]
本稿では,非言語および対話指向音声信号,特にバックチャネルの合成の難しさについて論じる。
我々は,人間-ロボットインタラクション研究者の注意を引き、より優れた対話型ロボットを設計することを目的として,関連文献と先行研究の成果を提示する。
論文 参考訳(メタデータ) (2022-03-17T20:24:17Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z) - Self-supervised reinforcement learning for speaker localisation with the
iCub humanoid robot [58.2026611111328]
人の顔を見ることは、ノイズの多い環境での音声のフィルタリングに人間が依存するメカニズムの1つである。
スピーカーに目を向けるロボットを持つことは、挑戦的な環境でのASRのパフォーマンスに恩恵をもたらす可能性がある。
本稿では,人間の初期発達に触発された自己指導型強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-12T18:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。