論文の概要: A Sign Language Recognition System with Pepper, Lightweight-Transformer,
and LLM
- arxiv url: http://arxiv.org/abs/2309.16898v1
- Date: Thu, 28 Sep 2023 23:54:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 16:07:00.580736
- Title: A Sign Language Recognition System with Pepper, Lightweight-Transformer,
and LLM
- Title(参考訳): Pepper, Lightweight-Transformer, LLM を用いた手話認識システム
- Authors: JongYoon Lim, Inkyu Sa, Bruce MacDonald, and Ho Seok Ahn
- Abstract要約: 本研究は,ヒューマノイドロボットPepperがAmerican Sign Language(ASL)を理解するために,軽量なディープニューラルネットワークアーキテクチャを用いた検討である。
組込みシステムに最適化されたASL理解のための軽量で効率的なモデルを導入し,計算資源を保存しながら,迅速な手話認識を実現する。
我々は、Pepper Robotが自然なCo-Speech Gesture応答を生成できるように対話を調整し、より有機的で直感的なヒューマノイドロボット対話の基礎を築いた。
- 参考スコア(独自算出の注目度): 0.9775599530257609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research explores using lightweight deep neural network architectures to
enable the humanoid robot Pepper to understand American Sign Language (ASL) and
facilitate non-verbal human-robot interaction. First, we introduce a
lightweight and efficient model for ASL understanding optimized for embedded
systems, ensuring rapid sign recognition while conserving computational
resources. Building upon this, we employ large language models (LLMs) for
intelligent robot interactions. Through intricate prompt engineering, we tailor
interactions to allow the Pepper Robot to generate natural Co-Speech Gesture
responses, laying the foundation for more organic and intuitive humanoid-robot
dialogues. Finally, we present an integrated software pipeline, embodying
advancements in a socially aware AI interaction model. Leveraging the Pepper
Robot's capabilities, we demonstrate the practicality and effectiveness of our
approach in real-world scenarios. The results highlight a profound potential
for enhancing human-robot interaction through non-verbal interactions, bridging
communication gaps, and making technology more accessible and understandable.
- Abstract(参考訳): 本研究は,人型ロボットPepperがAmerican Sign Language(ASL)を理解し,非言語的人間-ロボット間相互作用を促進するために,軽量なディープニューラルネットワークアーキテクチャを用いて検討する。
まず、組み込みシステムに最適化されたASL理解のための軽量で効率的なモデルを導入し、計算資源を保存しながら、迅速な手話認識を実現する。
これに基づいて,我々は,知的ロボットインタラクションに大規模言語モデル(LLM)を用いる。
複雑なプロンプトエンジニアリングを通じて、pepperロボットが自然な共同ジェスチャー応答を生成できるようにインタラクションを調整し、よりオーガニックで直感的なヒューマノイド-ロボット対話の基礎を築いた。
最後に、社会的に認識されたAIインタラクションモデルにおける進歩を具現化した統合ソフトウェアパイプラインを提案する。
Pepper Robotの能力を生かして、現実のシナリオにおける我々のアプローチの実践性と有効性を示す。
結果は、非言語インタラクションによる人間とロボットのインタラクションの強化、コミュニケーションギャップの橋渡し、テクノロジのアクセス性と理解性の向上という、大きな可能性を強調している。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - LPAC: Learnable Perception-Action-Communication Loops with Applications
to Coverage Control [80.86089324742024]
本稿では,その問題に対する学習可能なパーセプション・アクション・コミュニケーション(LPAC)アーキテクチャを提案する。
CNNは局所認識を処理する。グラフニューラルネットワーク(GNN)はロボットのコミュニケーションを促進する。
評価の結果,LPACモデルは標準分散型および集中型カバレッジ制御アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-01-10T00:08:00Z) - Exploring Large Language Models to Facilitate Variable Autonomy for Human-Robot Teaming [4.779196219827508]
本稿では,VR(Unity Virtual Reality)設定に基づく,GPTを利用したマルチロボットテストベッド環境のための新しいフレームワークを提案する。
このシステムにより、ユーザーは自然言語でロボットエージェントと対話でき、それぞれが個々のGPTコアで動く。
12人の参加者によるユーザスタディでは、GPT-4の有効性と、さらに重要なのは、マルチロボット環境で自然言語で会話する機会を与えられる際のユーザ戦略について検討している。
論文 参考訳(メタデータ) (2023-12-12T12:26:48Z) - Large Language Models for Robotics: A Survey [40.76581696885846]
大規模言語モデル(LLM)は自然言語の処理と生成能力を有しており、ロボットとの効率的な対話と協調を促進する。
本レビューは,ロボット制御,知覚,意思決定,経路計画といった重要な領域に対する,ロボット工学におけるLLMの応用と貢献を要約することを目的としている。
論文 参考訳(メタデータ) (2023-11-13T10:46:35Z) - A Human-Robot Mutual Learning System with Affect-Grounded Language
Acquisition and Differential Outcomes Training [0.1812164955222814]
本稿では,ロボットのホメオスタティックなニーズを識別するための,人間とロボットのインタラクション・セットアップを提案する。
我々は,ロボットが内部ニーズに特有のフィードバックを提供する,差分結果学習プロトコルを採用した。
我々は、DOTが人間の学習効率を高めることができるという証拠を発見し、それによってより効率的なロボット言語習得を可能にした。
論文 参考訳(メタデータ) (2023-10-20T09:41:31Z) - Incremental Learning of Humanoid Robot Behavior from Natural Interaction and Large Language Models [23.945922720555146]
本研究では,自然相互作用から複雑な行動の漸進的な学習を実現するシステムを提案する。
本システムは,ヒューマノイドロボットARMAR-6のロボット認知アーキテクチャに組み込まれている。
論文 参考訳(メタデータ) (2023-09-08T13:29:05Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - "No, to the Right" -- Online Language Corrections for Robotic
Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。
LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。
提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文 参考訳(メタデータ) (2023-01-06T15:03:27Z) - A MultiModal Social Robot Toward Personalized Emotion Interaction [1.2183405753834562]
本研究では,ロボットインタラクションポリシーを強化するために,強化学習を伴うマルチモーダルヒューマンロボットインタラクション(HRI)フレームワークを実証する。
目標は、ロボットがより自然で魅力的なHRIフレームワークを作れるように、このフレームワークを社会シナリオに適用することだ。
論文 参考訳(メタデータ) (2021-10-08T00:35:44Z) - Self-supervised reinforcement learning for speaker localisation with the
iCub humanoid robot [58.2026611111328]
人の顔を見ることは、ノイズの多い環境での音声のフィルタリングに人間が依存するメカニズムの1つである。
スピーカーに目を向けるロボットを持つことは、挑戦的な環境でのASRのパフォーマンスに恩恵をもたらす可能性がある。
本稿では,人間の初期発達に触発された自己指導型強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-12T18:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。