論文の概要: Ultra-Range Gesture Recognition using a Web-Camera in Human-Robot Interaction
- arxiv url: http://arxiv.org/abs/2311.15361v2
- Date: Wed, 10 Apr 2024 06:46:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 19:15:52.545650
- Title: Ultra-Range Gesture Recognition using a Web-Camera in Human-Robot Interaction
- Title(参考訳): 人-ロボットインタラクションにおけるWebカメラを用いたUltra-Range Gesture Recognition
- Authors: Eran Bamani, Eden Nissinman, Inbar Meir, Lisa Koenigsberg, Avishai Sintov,
- Abstract要約: ジェスチャー認識の視覚的手法は, ユーザ・カメラ距離が7m以内で有効であることが示されている。
本稿では,GViT (Graph Vision Transformer) と呼ばれる新しいURGRを提案する。
種々のテストデータに対するフレームワークの評価は98.1%という高い認識率が得られる。
- 参考スコア(独自算出の注目度): 2.240453048130742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hand gestures play a significant role in human interactions where non-verbal intentions, thoughts and commands are conveyed. In Human-Robot Interaction (HRI), hand gestures offer a similar and efficient medium for conveying clear and rapid directives to a robotic agent. However, state-of-the-art vision-based methods for gesture recognition have been shown to be effective only up to a user-camera distance of seven meters. Such a short distance range limits practical HRI with, for example, service robots, search and rescue robots and drones. In this work, we address the Ultra-Range Gesture Recognition (URGR) problem by aiming for a recognition distance of up to 25 meters and in the context of HRI. We propose the URGR framework, a novel deep-learning, using solely a simple RGB camera. Gesture inference is based on a single image. First, a novel super-resolution model termed High-Quality Network (HQ-Net) uses a set of self-attention and convolutional layers to enhance the low-resolution image of the user. Then, we propose a novel URGR classifier termed Graph Vision Transformer (GViT) which takes the enhanced image as input. GViT combines the benefits of a Graph Convolutional Network (GCN) and a modified Vision Transformer (ViT). Evaluation of the proposed framework over diverse test data yields a high recognition rate of 98.1%. The framework has also exhibited superior performance compared to human recognition in ultra-range distances. With the framework, we analyze and demonstrate the performance of an autonomous quadruped robot directed by human gestures in complex ultra-range indoor and outdoor environments, acquiring 96% recognition rate on average.
- Abstract(参考訳): ハンドジェスチャは、非言語的意図、思考、命令が伝達される人間の相互作用において重要な役割を果たす。
HRI(Human-Robot Interaction)では、ハンドジェスチャはロボットエージェントに明確で迅速な指示を伝達するための類似した、効率的な媒体を提供する。
しかし、現在最先端の視覚に基づくジェスチャー認識法は、ユーザ・カメラ距離が7mまでしか有効でないことが示されている。
例えば、サービスロボット、捜索救助ロボット、ドローンなどである。
本研究では,最大25mの認識距離とHRIの文脈で,Ultra-Range Gesture Recognition (URGR)問題に対処する。
本稿では,シンプルなRGBカメラを用いた新しいディープラーニングフレームワークURGRを提案する。
ジェスチャー推論は単一の画像に基づいている。
まず、ハイクオリティネットワーク(HQ-Net)と呼ばれる新しい超解像モデルが、ユーザの低解像度画像を強化するために、自己注意層と畳み込み層を用いている。
そこで我々は,GViT (Graph Vision Transformer) と呼ばれる新しいURGR分類器を提案する。
GViTは、グラフ畳み込みネットワーク(GCN)と修正されたビジョントランスフォーマー(ViT)の利点を組み合わせたものである。
種々のテストデータに対するフレームワークの評価は98.1%という高い認識率が得られる。
このフレームワークは、超距離での人間の認識よりも優れた性能を示した。
このフレームワークを用いて、複雑な屋内・屋外環境における人間のジェスチャーによる自律的な四足歩行ロボットの性能を解析、実証し、平均96%の認識率を得た。
関連論文リスト
- Dynamic Gesture Recognition in Ultra-Range Distance for Effective Human-Robot Interaction [2.625826951636656]
本稿では,人間-ロボットインタラクション(HRI)の課題を遠距離で解決する,超距離ジェスチャー認識のための新しいアプローチを提案する。
ビデオデータに人間のジェスチャーを活用することで,現在の手法の限界を超える時間時空間核融合ネットワーク(TSFN)モデルを提案する。
サービスロボット、捜索・救助活動、ドローンによるインタラクションの応用により、我々のアプローチは拡張環境におけるHRIを強化する。
論文 参考訳(メタデータ) (2024-07-31T06:56:46Z) - A Diffusion-based Data Generator for Training Object Recognition Models in Ultra-Range Distance [2.240453048130742]
超視界に位置するほとんど見えない物体を認識するためのモデルは、ラベル付きサンプルの徹底的な収集を必要とする。
本研究では,ディフュージョンモデルに基づくDUR(Diffusion in Ultra-Range)フレームワークを提案する。
DURは、URGRモデルのトレーニングにおいて、忠実度と認識成功率の両方において優位性を示す他の種類の生成モデルと比較される。
論文 参考訳(メタデータ) (2024-04-15T14:55:43Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Agile gesture recognition for capacitive sensing devices: adapting
on-the-job [55.40855017016652]
本システムでは, コンデンサセンサからの信号を手の動き認識器に組み込んだ手動作認識システムを提案する。
コントローラは、着用者5本の指それぞれからリアルタイム信号を生成する。
機械学習技術を用いて時系列信号を解析し,500ms以内で5本の指を表現できる3つの特徴を同定する。
論文 参考訳(メタデータ) (2023-05-12T17:24:02Z) - Online Recognition of Incomplete Gesture Data to Interface Collaborative
Robots [0.0]
本稿では,ウェアラブルセンサで捉えた静的ジェスチャー(SG)と動的ジェスチャー(DG)の大きな語彙を分類するためのHRIフレームワークを提案する。
認識されたジェスチャーは、朝食の食事を準備する共同作業でロボットを遠隔操作するために使用される。
論文 参考訳(メタデータ) (2023-04-13T18:49:08Z) - Cross Vision-RF Gait Re-identification with Low-cost RGB-D Cameras and
mmWave Radars [15.662787088335618]
本研究は, クロスモーダルヒト再識別(ReID)の問題に関する研究である。
マルチモーダル多人数共振器ReIDのための第1種視覚RFシステムを提案する。
提案システムは56名のボランティアのうち92.5%がトップ1の精度、97.5%がトップ5の精度を達成できる。
論文 参考訳(メタデータ) (2022-07-16T10:34:25Z) - CNN-based Omnidirectional Object Detection for HermesBot Autonomous
Delivery Robot with Preliminary Frame Classification [53.56290185900837]
予備的バイナリフレーム分類を用いた物体検出のためのニューラルネットワークの最適化アルゴリズムを提案する。
周囲に6台のローリングシャッターカメラを備えた自律移動ロボットを360度視野として実験装置として使用した。
論文 参考訳(メタデータ) (2021-10-22T15:05:37Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - VGAI: End-to-End Learning of Vision-Based Decentralized Controllers for
Robot Swarms [237.25930757584047]
ビジュアル入力のみに基づいて分散制御系を学習することを提案する。
初めて、コミュニケーションと視覚知覚という2つの重要な要素の学習を統合する。
提案する学習フレームワークは,各ロボットが視覚入力からメッセージを取り出すための畳み込みニューラルネットワーク(CNN)と,これらのメッセージの送信,受信,処理を行うためのSwarm全体のグラフニューラルネットワーク(GNN)を組み合わせる。
論文 参考訳(メタデータ) (2020-02-06T15:25:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。