Fugu-MT 論文翻訳(概要): A Sign Language Recognition System with Pepper, Lightweight-Transformer, and LLM

論文の概要: A Sign Language Recognition System with Pepper, Lightweight-Transformer, and LLM

arxiv url: http://arxiv.org/abs/2309.16898v1
Date: Thu, 28 Sep 2023 23:54:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-02 16:07:00.580736
Title: A Sign Language Recognition System with Pepper, Lightweight-Transformer, and LLM
Title（参考訳）: Pepper, Lightweight-Transformer, LLM を用いた手話認識システム
Authors: JongYoon Lim, Inkyu Sa, Bruce MacDonald, and Ho Seok Ahn
Abstract要約: 本研究は,ヒューマノイドロボットPepperがAmerican Sign Language(ASL)を理解するために,軽量なディープニューラルネットワークアーキテクチャを用いた検討である。組込みシステムに最適化されたASL理解のための軽量で効率的なモデルを導入し,計算資源を保存しながら,迅速な手話認識を実現する。我々は、Pepper Robotが自然なCo-Speech Gesture応答を生成できるように対話を調整し、より有機的で直感的なヒューマノイドロボット対話の基礎を築いた。
参考スコア（独自算出の注目度）: 0.9775599530257609
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This research explores using lightweight deep neural network architectures to enable the humanoid robot Pepper to understand American Sign Language (ASL) and facilitate non-verbal human-robot interaction. First, we introduce a lightweight and efficient model for ASL understanding optimized for embedded systems, ensuring rapid sign recognition while conserving computational resources. Building upon this, we employ large language models (LLMs) for intelligent robot interactions. Through intricate prompt engineering, we tailor interactions to allow the Pepper Robot to generate natural Co-Speech Gesture responses, laying the foundation for more organic and intuitive humanoid-robot dialogues. Finally, we present an integrated software pipeline, embodying advancements in a socially aware AI interaction model. Leveraging the Pepper Robot's capabilities, we demonstrate the practicality and effectiveness of our approach in real-world scenarios. The results highlight a profound potential for enhancing human-robot interaction through non-verbal interactions, bridging communication gaps, and making technology more accessible and understandable.
Abstract（参考訳）: 本研究は,人型ロボットPepperがAmerican Sign Language(ASL)を理解し,非言語的人間-ロボット間相互作用を促進するために,軽量なディープニューラルネットワークアーキテクチャを用いて検討する。まず、組み込みシステムに最適化されたASL理解のための軽量で効率的なモデルを導入し、計算資源を保存しながら、迅速な手話認識を実現する。これに基づいて,我々は,知的ロボットインタラクションに大規模言語モデル(LLM)を用いる。複雑なプロンプトエンジニアリングを通じて、pepperロボットが自然な共同ジェスチャー応答を生成できるようにインタラクションを調整し、よりオーガニックで直感的なヒューマノイド-ロボット対話の基礎を築いた。最後に、社会的に認識されたAIインタラクションモデルにおける進歩を具現化した統合ソフトウェアパイプラインを提案する。 Pepper Robotの能力を生かして、現実のシナリオにおける我々のアプローチの実践性と有効性を示す。結果は、非言語インタラクションによる人間とロボットのインタラクションの強化、コミュニケーションギャップの橋渡し、テクノロジのアクセス性と理解性の向上という、大きな可能性を強調している。

関連論文リスト

A roadmap for AI in robotics [55.87087746398059]
AIの可能性を生かして、私たちの日常生活にロボットを配備する上での、際立った障壁に取り組みたいと考えています。この記事では、1990年代からロボット工学におけるAIが達成したことを評価し、課題と約束を列挙した短期的・中期的な研究ロードマップを提案する。
論文参考訳（メタデータ） (2025-07-26T15:18:28Z)
TalkWithMachines: Enhancing Human-Robot Interaction for Interpretable Industrial Robotics Through Large/Vision Language Models [1.534667887016089]
本稿では,Large Language Models (LLMs) とVision Language Models (VLMs) の最近の進歩について検討する。この統合により、ロボットは自然言語で与えられたコマンドを理解し、実行し、視覚的および/または記述的な入力を通じて環境を認識することができる。本稿は、低レベル制御を探索するLLM支援型ロボット制御4つについて概説し、(ii)ロボットの内部状態を記述した言語に基づくフィードバックの生成、(iii)視覚情報の追加入力としての利用、(iv)タスク計画とフィードバックを生成するロボット構造情報の利用について述べる。
論文参考訳（メタデータ） (2024-12-19T23:43:40Z)
$π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文参考訳（メタデータ） (2024-10-31T17:22:30Z)
RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文参考訳（メタデータ） (2024-02-22T15:12:00Z)
LPAC: Learnable Perception-Action-Communication Loops with Applications to Coverage Control [80.86089324742024]
本稿では,その問題に対する学習可能なパーセプション・アクション・コミュニケーション(LPAC)アーキテクチャを提案する。 CNNは局所認識を処理する。グラフニューラルネットワーク(GNN)はロボットのコミュニケーションを促進する。評価の結果,LPACモデルは標準分散型および集中型カバレッジ制御アルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2024-01-10T00:08:00Z)
Exploring Large Language Models to Facilitate Variable Autonomy for Human-Robot Teaming [4.779196219827508]
本稿では,VR(Unity Virtual Reality)設定に基づく,GPTを利用したマルチロボットテストベッド環境のための新しいフレームワークを提案する。このシステムにより、ユーザーは自然言語でロボットエージェントと対話でき、それぞれが個々のGPTコアで動く。 12人の参加者によるユーザスタディでは、GPT-4の有効性と、さらに重要なのは、マルチロボット環境で自然言語で会話する機会を与えられる際のユーザ戦略について検討している。
論文参考訳（メタデータ） (2023-12-12T12:26:48Z)
Large Language Models for Robotics: A Survey [40.76581696885846]
大規模言語モデル(LLM)は自然言語の処理と生成能力を有しており、ロボットとの効率的な対話と協調を促進する。本レビューは,ロボット制御,知覚,意思決定,経路計画といった重要な領域に対する,ロボット工学におけるLLMの応用と貢献を要約することを目的としている。
論文参考訳（メタデータ） (2023-11-13T10:46:35Z)
A Human-Robot Mutual Learning System with Affect-Grounded Language Acquisition and Differential Outcomes Training [0.1812164955222814]
本稿では,ロボットのホメオスタティックなニーズを識別するための,人間とロボットのインタラクション・セットアップを提案する。我々は,ロボットが内部ニーズに特有のフィードバックを提供する,差分結果学習プロトコルを採用した。我々は、DOTが人間の学習効率を高めることができるという証拠を発見し、それによってより効率的なロボット言語習得を可能にした。
論文参考訳（メタデータ） (2023-10-20T09:41:31Z)
Incremental Learning of Humanoid Robot Behavior from Natural Interaction and Large Language Models [23.945922720555146]
本研究では,自然相互作用から複雑な行動の漸進的な学習を実現するシステムを提案する。本システムは,ヒューマノイドロボットARMAR-6のロボット認知アーキテクチャに組み込まれている。
論文参考訳（メタデータ） (2023-09-08T13:29:05Z)
WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文参考訳（メタデータ） (2023-08-30T11:35:21Z)
"No, to the Right" -- Online Language Corrections for Robotic Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。 LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文参考訳（メタデータ） (2023-01-06T15:03:27Z)
A MultiModal Social Robot Toward Personalized Emotion Interaction [1.2183405753834562]
本研究では,ロボットインタラクションポリシーを強化するために,強化学習を伴うマルチモーダルヒューマンロボットインタラクション(HRI)フレームワークを実証する。目標は、ロボットがより自然で魅力的なHRIフレームワークを作れるように、このフレームワークを社会シナリオに適用することだ。
論文参考訳（メタデータ） (2021-10-08T00:35:44Z)
Self-supervised reinforcement learning for speaker localisation with the iCub humanoid robot [58.2026611111328]
人の顔を見ることは、ノイズの多い環境での音声のフィルタリングに人間が依存するメカニズムの1つである。スピーカーに目を向けるロボットを持つことは、挑戦的な環境でのASRのパフォーマンスに恩恵をもたらす可能性がある。本稿では,人間の初期発達に触発された自己指導型強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-11-12T18:02:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。