論文の概要: Integrating Persian Lip Reading in Surena-V Humanoid Robot for Human-Robot Interaction
- arxiv url: http://arxiv.org/abs/2501.13996v1
- Date: Thu, 23 Jan 2025 10:57:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:56:13.571336
- Title: Integrating Persian Lip Reading in Surena-V Humanoid Robot for Human-Robot Interaction
- Title(参考訳): ヒト-ロボットインタラクションのためのレアナV型ヒューマノイドロボットにおけるペルシャ唇読解の統合
- Authors: Ali Farshian Abbasi, Aghil Yousefi-Koma, Soheil Dehghani Firouzabadi, Parisa Rashidi, Alireza Naeini,
- Abstract要約: 本研究では,ペルシャ語による唇読取技術を人間型ロボットSurena-Vに統合し,音声認識能力の向上を図る。
最高の性能モデルであるLSTMは89%の精度を達成し、リアルタイムの人間とロボットのインタラクションのためにSurena-Vロボットに実装されている。
- 参考スコア(独自算出の注目度): 0.31457219084519
- License:
- Abstract: Lip reading is vital for robots in social settings, improving their ability to understand human communication. This skill allows them to communicate more easily in crowded environments, especially in caregiving and customer service roles. Generating a Persian Lip-reading dataset, this study integrates Persian lip-reading technology into the Surena-V humanoid robot to improve its speech recognition capabilities. Two complementary methods are explored, an indirect method using facial landmark tracking and a direct method leveraging convolutional neural networks (CNNs) and long short-term memory (LSTM) networks. The indirect method focuses on tracking key facial landmarks, especially around the lips, to infer movements, while the direct method processes raw video data for action and speech recognition. The best-performing model, LSTM, achieved 89\% accuracy and has been successfully implemented into the Surena-V robot for real-time human-robot interaction. The study highlights the effectiveness of these methods, particularly in environments where verbal communication is limited.
- Abstract(参考訳): リップリーディングは、社会的な環境においてロボットにとって不可欠であり、人間のコミュニケーションを理解する能力を向上させる。
このスキルは、特に介護やカスタマーサービスの役割において、混雑した環境でのコミュニケーションをより容易にします。
ペルシャのリップリーディングデータセットを作成したこの研究は、ペルシャのリップリーディング技術を、Surena-Vのヒューマノイドロボットに統合し、音声認識能力を向上させる。
顔のランドマーク追跡を用いた間接的手法と、畳み込みニューラルネットワーク(CNN)と長短期記憶(LSTM)ネットワークを利用する直接手法の2つの補完手法について検討した。
間接的手法は、特に唇周辺の重要な顔のランドマークを追跡して動きを推測することに焦点を当て、直接的手法はアクションや音声認識のための生のビデオデータを処理している。
最高の性能モデルであるLSTMは、89 %の精度を達成し、リアルタイムの人間とロボットのインタラクションのために、Surena-Vロボットに実装されている。
この研究は、特に言語コミュニケーションが限られている環境では、これらの手法の有効性を強調している。
関連論文リスト
- Real-Time Multimodal Signal Processing for HRI in RoboCup: Understanding a Human Referee [1.7456666582626115]
本研究では、キーポイント抽出と分類によるジェスチャー認識のための2段階パイプラインと、効率的なwhi検出のための連続畳み込みニューラルネットワーク(CCNN)を実装した。
提案されたアプローチは、RoboCupのような競合する環境でのリアルタイムな人間とロボットのインタラクションを強化し、人間と協力できる自律システムの開発を前進させるためのツールを提供する。
論文 参考訳(メタデータ) (2024-11-26T11:39:43Z) - NatSGD: A Dataset with Speech, Gestures, and Demonstrations for Robot
Learning in Natural Human-Robot Interaction [19.65778558341053]
HRIデータセットは、オブジェクトのポインティングやプッシュといった基本的なタスクに重点を置いていることが多い。
音声とジェスチャーによる人間のコマンドを含むマルチモーダルHRIデータセットであるNatSGDを紹介する。
マルチモーダル・ヒューマン・コマンドによるタスク理解のためのロボットの訓練において,その効果を実証する。
論文 参考訳(メタデータ) (2024-03-04T18:02:41Z) - Learning Multimodal Latent Dynamics for Human-Robot Interaction [19.803547418450236]
本稿では,ヒト-ヒトインタラクション(HHI)から協調型人間-ロボットインタラクション(HRI)を学習する方法を提案する。
本研究では,隠れマルコフモデル(HMM)を変分オートエンコーダの潜在空間として用いて,相互作用するエージェントの結合分布をモデル化するハイブリッドアプローチを考案する。
ユーザが私たちのメソッドを,より人間らしく,タイムリーで,正確なものと認識し,他のベースラインよりも高い優先度でメソッドをランク付けすることが分かりました。
論文 参考訳(メタデータ) (2023-11-27T23:56:59Z) - Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - A Sign Language Recognition System with Pepper, Lightweight-Transformer,
and LLM [0.9775599530257609]
本研究は,ヒューマノイドロボットPepperがAmerican Sign Language(ASL)を理解するために,軽量なディープニューラルネットワークアーキテクチャを用いた検討である。
組込みシステムに最適化されたASL理解のための軽量で効率的なモデルを導入し,計算資源を保存しながら,迅速な手話認識を実現する。
我々は、Pepper Robotが自然なCo-Speech Gesture応答を生成できるように対話を調整し、より有機的で直感的なヒューマノイドロボット対話の基礎を築いた。
論文 参考訳(メタデータ) (2023-09-28T23:54:41Z) - Gesture2Path: Imitation Learning for Gesture-aware Navigation [54.570943577423094]
Gesture2Pathは、画像に基づく模倣学習とモデル予測制御を組み合わせた新しいソーシャルナビゲーション手法である。
実際のロボットに本手法をデプロイし,4つのジェスチャーナビゲーションシナリオに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2022-09-19T23:05:36Z) - Human-to-Robot Imitation in the Wild [50.49660984318492]
本研究では,第三者の視点からの学習を中心に,効率的なワンショットロボット学習アルゴリズムを提案する。
実世界における20種類の操作タスクを含む,ワンショットの一般化と成功を示す。
論文 参考訳(メタデータ) (2022-07-19T17:59:59Z) - Cognitive architecture aided by working-memory for self-supervised
multi-modal humans recognition [54.749127627191655]
人間パートナーを認識する能力は、パーソナライズされた長期的な人間とロボットの相互作用を構築するための重要な社会的スキルです。
ディープラーニングネットワークは最先端の結果を達成し,そのような課題に対処するための適切なツールであることが実証された。
1つの解決策は、ロボットに自己スーパービジョンで直接の感覚データから学習させることである。
論文 参考訳(メタデータ) (2021-03-16T13:50:24Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - Self-supervised reinforcement learning for speaker localisation with the
iCub humanoid robot [58.2026611111328]
人の顔を見ることは、ノイズの多い環境での音声のフィルタリングに人間が依存するメカニズムの1つである。
スピーカーに目を向けるロボットを持つことは、挑戦的な環境でのASRのパフォーマンスに恩恵をもたらす可能性がある。
本稿では,人間の初期発達に触発された自己指導型強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-12T18:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。