論文の概要: GPT Models Meet Robotic Applications: Co-Speech Gesturing Chat System
- arxiv url: http://arxiv.org/abs/2306.01741v1
- Date: Wed, 10 May 2023 10:14:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 04:33:42.447448
- Title: GPT Models Meet Robotic Applications: Co-Speech Gesturing Chat System
- Title(参考訳): GPTモデルとロボット応用:協調学習チャットシステム
- Authors: Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu,
Katsushi Ikeuchi
- Abstract要約: 大規模言語モデル(LLM)の最近の進歩を利用したチャットロボットシステムを提案する。
このシステムは、音声の概念的意味に基づいて適切なジェスチャーを選択する、音声合成システムと統合されている。
- 参考スコア(独自算出の注目度): 8.660929270060146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical paper introduces a chatting robot system that utilizes recent
advancements in large-scale language models (LLMs) such as GPT-3 and ChatGPT.
The system is integrated with a co-speech gesture generation system, which
selects appropriate gestures based on the conceptual meaning of speech. Our
motivation is to explore ways of utilizing the recent progress in LLMs for
practical robotic applications, which benefits the development of both chatbots
and LLMs. Specifically, it enables the development of highly responsive chatbot
systems by leveraging LLMs and adds visual effects to the user interface of
LLMs as an additional value. The source code for the system is available on
GitHub for our in-house robot
(https://github.com/microsoft/LabanotationSuite/tree/master/MSRAbotChatSimulation)
and GitHub for Toyota HSR
(https://github.com/microsoft/GPT-Enabled-HSR-CoSpeechGestures).
- Abstract(参考訳): 本稿では,GPT-3やChatGPTといった大規模言語モデル(LLM)の最近の進歩を利用したチャットロボットシステムを提案する。
本システムは,音声の概念的意味に基づいて適切なジェスチャーを選択する音声合成システムと統合されている。
我々のモチベーションは、チャットボットとLLMの両方の開発に役立つ実用ロボットアプリケーションにおけるLLMの最近の進歩を活用する方法を探ることである。
具体的には、LLMを活用して高応答性チャットボットシステムの開発を可能にし、付加価値としてLLMのユーザインタフェースに視覚効果を加える。
システムのソースコードは、当社の社内ロボット(https://github.com/microsoft/LabanotationSuite/tree/MSRAbotChatSimulation)とToyota HSR(https://github.com/microsoft/GPT-Enabled-HSR-CoSpeechGestures)でGitHubで入手できる。
関連論文リスト
- Large Generative Model-assisted Talking-face Semantic Communication System [55.42631520122753]
本研究では,LGM-TSC(Large Generative Model-assisted Talking-face Semantic Communication)システムを提案する。
送信機のジェネレーティブセマンティック・エクストラクタ(GSE)は、意味的にスパースな音声映像を高情報密度のテキストに変換する。
意味的曖昧さと修正のためのLarge Language Model (LLM)に基づくPrivate Knowledge Base (KB)。
BERT-VITS2とSadTalkerモデルを用いた生成意味再構成(GSR)により、テキストを高QoE音声ビデオに変換する。
論文 参考訳(メタデータ) (2024-11-06T12:45:46Z) - Towards an LLM-Based Speech Interface for Robot-Assisted Feeding [9.528060348251584]
LLM(Large Language Models)を利用した音声インタフェースにより、個人はロボットに高度なコマンドや微妙な好みを伝えることができる。
本研究では,商用支援ロボットのためのLLMベースの音声インタフェースを実演する。
論文 参考訳(メタデータ) (2024-10-27T22:56:51Z) - ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。
ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する
我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文 参考訳(メタデータ) (2024-06-28T08:28:38Z) - VoicePilot: Harnessing LLMs as Speech Interfaces for Physically Assistive Robots [9.528060348251584]
LLM(Large Language Models)を利用した音声インタフェースにより、個人はロボットに高度なコマンドや微妙な好みを伝えることができる。
高度なタスク計画とコード生成のためのロボットへのインタフェースとしてLLMを統合するためのフレームワークが提案されているが、人間中心の考慮を組み込むことはできなかった。
本稿では,身体支援ロボットの音声インタフェースとしてLLMを組み込むための枠組みについて,食事ロボットを用いた3段階の試験を反復的に構築し,11人の高齢者を対象に,独立した生活施設で評価を行った。
論文 参考訳(メタデータ) (2024-04-05T12:45:10Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - Ain't Misbehavin' -- Using LLMs to Generate Expressive Robot Behavior in
Conversations with the Tabletop Robot Haru [9.2526849536751]
本稿では,大規模言語モデル(LLM)を利用して,表現行動を伴うロボット応答を生成する,完全自動会話システムを提案する。
提案したシステムを用いて,ボランティアが社会ロボットとチャットし,そのフィードバックを分析し,チャットテキストの厳密な誤り解析を行う。
最も否定的なフィードバックは、会話に限られた影響を及ぼす自動音声認識(ASR)エラーによるものだった。
論文 参考訳(メタデータ) (2024-02-18T12:35:52Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z) - InternGPT: Solving Vision-Centric Tasks by Interacting with ChatGPT
Beyond Language [82.92236977726655]
InternGPTは textbfinteraction, textbfnonverbal, textbfchatbot の略である。
InternGPT(iGPT)という対話型視覚フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-09T17:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。