論文の概要: Ultra-Range Gesture Recognition using an RGB Camera in Human-Robot
Interaction
- arxiv url: http://arxiv.org/abs/2311.15361v1
- Date: Sun, 26 Nov 2023 17:27:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 18:09:00.297979
- Title: Ultra-Range Gesture Recognition using an RGB Camera in Human-Robot
Interaction
- Title(参考訳): ロボットインタラクションにおけるRGBカメラを用いた超音波ジェスチャー認識
- Authors: Eran Bamani, Eden Nissinman, Inbar Meir, Lisa Koenigsberg, Avishai
Sintov
- Abstract要約: ジェスチャー認識の視覚的手法は,ユーザ・カメラ距離が7mまでしか有効でないことが示されている。
本稿では,シンプルなRGBカメラを用いたジェスチャー認識(URGR)のための新しいディープラーニングフレームワークを提案する。
このフレームワークは、超距離での人間の認識よりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 2.4036609880683586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hand gestures play a significant role in human interactions where non-verbal
intentions, thoughts and commands are conveyed. In Human-Robot Interaction
(HRI), hand gestures offer a similar and efficient medium for conveying clear
and rapid directives to a robotic agent. However, state-of-the-art vision-based
methods for gesture recognition have been shown to be effective only up to a
user-camera distance of seven meters. Such a short distance range limits
practical HRI with, for example, service robots, search and rescue robots and
drones. In this work, we address the Ultra-Range Gesture Recognition (URGR)
problem by aiming for a recognition distance of up to 25 meters and in the
context of HRI. We propose a novel deep-learning framework for URGR using
solely a simple RGB camera. First, a novel super-resolution model termed HQ-Net
is used to enhance the low-resolution image of the user. Then, we propose a
novel URGR classifier termed Graph Vision Transformer (GViT) which takes the
enhanced image as input. GViT combines the benefits of a Graph Convolutional
Network (GCN) and a modified Vision Transformer (ViT). Evaluation of the
proposed framework over diverse test data yields a high recognition rate of
98.1%. The framework has also exhibited superior performance compared to human
recognition in ultra-range distances. With the framework, we analyze and
demonstrate the performance of an autonomous quadruped robot directed by human
gestures in complex ultra-range indoor and outdoor environments.
- Abstract(参考訳): ハンドジェスチャは、非言語的意図、思考、命令が伝達される人間の相互作用において重要な役割を果たす。
HRI(Human-Robot Interaction)では、ハンドジェスチャはロボットエージェントに明確で迅速な指示を伝達するための類似した、効率的な媒体を提供する。
しかし,ジェスチャ認識のための最先端の視覚ベース手法は,ユーザカメラ距離7mまでしか効果がないことが示されている。
このような距離の短い範囲では、サービスロボット、捜索救助ロボット、ドローンといった実用的なhriを制限することができる。
本研究では,最大25mの認識距離とHRIの文脈で,Ultra-Range Gesture Recognition (URGR)問題に対処する。
シンプルなRGBカメラのみを用いたURGRのための新しいディープラーニングフレームワークを提案する。
まず、HQ-Netと呼ばれる新しい超解像度モデルを用いて、ユーザの低解像度画像を強化する。
次に,拡張画像を入力とする新しいurgr分類器であるgraph vision transformer(gvit)を提案する。
GViTは、グラフ畳み込みネットワーク(GCN)と修正されたビジョントランスフォーマー(ViT)の利点を組み合わせたものである。
多様なテストデータに対する提案フレームワークの評価は、98.1%高い認識率をもたらす。
このフレームワークは、超距離での人間の認識よりも優れた性能を示した。
本研究では,複雑な屋内・屋外環境下での人間のジェスチャーによる自律的四足歩行ロボットの性能解析と実演を行う。
関連論文リスト
- Dynamic Gesture Recognition in Ultra-Range Distance for Effective Human-Robot Interaction [2.625826951636656]
本稿では,人間-ロボットインタラクション(HRI)の課題を遠距離で解決する,超距離ジェスチャー認識のための新しいアプローチを提案する。
ビデオデータに人間のジェスチャーを活用することで,現在の手法の限界を超える時間時空間核融合ネットワーク(TSFN)モデルを提案する。
サービスロボット、捜索・救助活動、ドローンによるインタラクションの応用により、我々のアプローチは拡張環境におけるHRIを強化する。
論文 参考訳(メタデータ) (2024-07-31T06:56:46Z) - A Diffusion-based Data Generator for Training Object Recognition Models in Ultra-Range Distance [2.240453048130742]
超視界に位置するほとんど見えない物体を認識するためのモデルは、ラベル付きサンプルの徹底的な収集を必要とする。
本研究では,ディフュージョンモデルに基づくDUR(Diffusion in Ultra-Range)フレームワークを提案する。
DURは、URGRモデルのトレーニングにおいて、忠実度と認識成功率の両方において優位性を示す他の種類の生成モデルと比較される。
論文 参考訳(メタデータ) (2024-04-15T14:55:43Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Agile gesture recognition for capacitive sensing devices: adapting
on-the-job [55.40855017016652]
本システムでは, コンデンサセンサからの信号を手の動き認識器に組み込んだ手動作認識システムを提案する。
コントローラは、着用者5本の指それぞれからリアルタイム信号を生成する。
機械学習技術を用いて時系列信号を解析し,500ms以内で5本の指を表現できる3つの特徴を同定する。
論文 参考訳(メタデータ) (2023-05-12T17:24:02Z) - Online Recognition of Incomplete Gesture Data to Interface Collaborative
Robots [0.0]
本稿では,ウェアラブルセンサで捉えた静的ジェスチャー(SG)と動的ジェスチャー(DG)の大きな語彙を分類するためのHRIフレームワークを提案する。
認識されたジェスチャーは、朝食の食事を準備する共同作業でロボットを遠隔操作するために使用される。
論文 参考訳(メタデータ) (2023-04-13T18:49:08Z) - Cross Vision-RF Gait Re-identification with Low-cost RGB-D Cameras and
mmWave Radars [15.662787088335618]
本研究は, クロスモーダルヒト再識別(ReID)の問題に関する研究である。
マルチモーダル多人数共振器ReIDのための第1種視覚RFシステムを提案する。
提案システムは56名のボランティアのうち92.5%がトップ1の精度、97.5%がトップ5の精度を達成できる。
論文 参考訳(メタデータ) (2022-07-16T10:34:25Z) - CNN-based Omnidirectional Object Detection for HermesBot Autonomous
Delivery Robot with Preliminary Frame Classification [53.56290185900837]
予備的バイナリフレーム分類を用いた物体検出のためのニューラルネットワークの最適化アルゴリズムを提案する。
周囲に6台のローリングシャッターカメラを備えた自律移動ロボットを360度視野として実験装置として使用した。
論文 参考訳(メタデータ) (2021-10-22T15:05:37Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - VGAI: End-to-End Learning of Vision-Based Decentralized Controllers for
Robot Swarms [237.25930757584047]
ビジュアル入力のみに基づいて分散制御系を学習することを提案する。
初めて、コミュニケーションと視覚知覚という2つの重要な要素の学習を統合する。
提案する学習フレームワークは,各ロボットが視覚入力からメッセージを取り出すための畳み込みニューラルネットワーク(CNN)と,これらのメッセージの送信,受信,処理を行うためのSwarm全体のグラフニューラルネットワーク(GNN)を組み合わせる。
論文 参考訳(メタデータ) (2020-02-06T15:25:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。