Fugu-MT 論文翻訳(概要): Ultra-Range Gesture Recognition using an RGB Camera in Human-Robot Interaction

論文の概要: Ultra-Range Gesture Recognition using an RGB Camera in Human-Robot Interaction

arxiv url: http://arxiv.org/abs/2311.15361v1
Date: Sun, 26 Nov 2023 17:27:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 18:09:00.297979
Title: Ultra-Range Gesture Recognition using an RGB Camera in Human-Robot Interaction
Title（参考訳）: ロボットインタラクションにおけるRGBカメラを用いた超音波ジェスチャー認識
Authors: Eran Bamani, Eden Nissinman, Inbar Meir, Lisa Koenigsberg, Avishai Sintov
Abstract要約: ジェスチャー認識の視覚的手法は,ユーザ・カメラ距離が7mまでしか有効でないことが示されている。本稿では,シンプルなRGBカメラを用いたジェスチャー認識(URGR)のための新しいディープラーニングフレームワークを提案する。このフレームワークは、超距離での人間の認識よりも優れた性能を示した。
参考スコア（独自算出の注目度）: 2.4036609880683586
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Hand gestures play a significant role in human interactions where non-verbal intentions, thoughts and commands are conveyed. In Human-Robot Interaction (HRI), hand gestures offer a similar and efficient medium for conveying clear and rapid directives to a robotic agent. However, state-of-the-art vision-based methods for gesture recognition have been shown to be effective only up to a user-camera distance of seven meters. Such a short distance range limits practical HRI with, for example, service robots, search and rescue robots and drones. In this work, we address the Ultra-Range Gesture Recognition (URGR) problem by aiming for a recognition distance of up to 25 meters and in the context of HRI. We propose a novel deep-learning framework for URGR using solely a simple RGB camera. First, a novel super-resolution model termed HQ-Net is used to enhance the low-resolution image of the user. Then, we propose a novel URGR classifier termed Graph Vision Transformer (GViT) which takes the enhanced image as input. GViT combines the benefits of a Graph Convolutional Network (GCN) and a modified Vision Transformer (ViT). Evaluation of the proposed framework over diverse test data yields a high recognition rate of 98.1%. The framework has also exhibited superior performance compared to human recognition in ultra-range distances. With the framework, we analyze and demonstrate the performance of an autonomous quadruped robot directed by human gestures in complex ultra-range indoor and outdoor environments.
Abstract（参考訳）: ハンドジェスチャは、非言語的意図、思考、命令が伝達される人間の相互作用において重要な役割を果たす。 HRI(Human-Robot Interaction)では、ハンドジェスチャはロボットエージェントに明確で迅速な指示を伝達するための類似した、効率的な媒体を提供する。しかし,ジェスチャ認識のための最先端の視覚ベース手法は,ユーザカメラ距離7mまでしか効果がないことが示されている。このような距離の短い範囲では、サービスロボット、捜索救助ロボット、ドローンといった実用的なhriを制限することができる。本研究では,最大25mの認識距離とHRIの文脈で,Ultra-Range Gesture Recognition (URGR)問題に対処する。シンプルなRGBカメラのみを用いたURGRのための新しいディープラーニングフレームワークを提案する。まず、HQ-Netと呼ばれる新しい超解像度モデルを用いて、ユーザの低解像度画像を強化する。次に,拡張画像を入力とする新しいurgr分類器であるgraph vision transformer(gvit)を提案する。 GViTは、グラフ畳み込みネットワーク(GCN)と修正されたビジョントランスフォーマー(ViT)の利点を組み合わせたものである。多様なテストデータに対する提案フレームワークの評価は、98.1%高い認識率をもたらす。このフレームワークは、超距離での人間の認識よりも優れた性能を示した。本研究では,複雑な屋内・屋外環境下での人間のジェスチャーによる自律的四足歩行ロボットの性能解析と実演を行う。

関連論文リスト

Recognizing Actions from Robotic View for Natural Human-Robot Interaction [52.00935005918032]
自然人-ロボットインタラクション(Natural Human-Robot Interaction, N-HRI)は、ロボット自身が動いているか静止しているかに関わらず、ロボットが様々な距離と状態で人間の行動を認識することを要求する。 N-HRIの既存のベンチマークは、限られたデータ、モダリティ、タスクカテゴリ、主題や環境の多様性のために、N-HRIのユニークな複雑さに対処できない。モバイルサービスロボットで広く使われている知覚中心ロボットビューのための大規模データセット(Action from Robotic View)を紹介する。
論文参考訳（メタデータ） (2025-07-30T09:48:34Z)
Look, Focus, Act: Efficient and Robust Robot Learning via Human Gaze and Foveated Vision Transformers [1.1031714356680165]
人間の視覚は視線によって駆動される非常に活発なプロセスであり、注意と固定をタスク関連領域に向ける。本研究では,ロボット政策に人間のようなアクティブな視線を取り入れることで,効率と性能を両立させる方法について検討する。
論文参考訳（メタデータ） (2025-07-21T17:44:10Z)
DiG-Net: Enhancing Quality of Life through Hyper-Range Dynamic Gesture Recognition in Assistive Robotics [2.625826951636656]
ロボット工学に特化して設計された新しいアプローチを導入し,最大30mの距離で動的ジェスチャー認識を実現する。提案手法では,DADAブロックと時空間グラフモジュールを効果的に組み合わせ,距離対応ゲスチャネットワーク(DiG-Net)を提案する。かなりの距離からジェスチャーを効果的に解釈することにより、DiG-Netは在宅医療、産業安全、遠隔支援シナリオにおける補助ロボットのユーザビリティを著しく向上させる。
論文参考訳（メタデータ） (2025-05-30T16:47:44Z)
Dynamic Gesture Recognition in Ultra-Range Distance for Effective Human-Robot Interaction [2.625826951636656]
本稿では,人間-ロボットインタラクション(HRI)の課題を遠距離で解決する,超距離ジェスチャー認識のための新しいアプローチを提案する。ビデオデータに人間のジェスチャーを活用することで,現在の手法の限界を超える時間時空間核融合ネットワーク(TSFN)モデルを提案する。サービスロボット、捜索・救助活動、ドローンによるインタラクションの応用により、我々のアプローチは拡張環境におけるHRIを強化する。
論文参考訳（メタデータ） (2024-07-31T06:56:46Z)
A Diffusion-based Data Generator for Training Object Recognition Models in Ultra-Range Distance [2.240453048130742]
超視界に位置するほとんど見えない物体を認識するためのモデルは、ラベル付きサンプルの徹底的な収集を必要とする。本研究では,ディフュージョンモデルに基づくDUR(Diffusion in Ultra-Range)フレームワークを提案する。 DURは、URGRモデルのトレーニングにおいて、忠実度と認識成功率の両方において優位性を示す他の種類の生成モデルと比較される。
論文参考訳（メタデータ） (2024-04-15T14:55:43Z)
EventTransAct: A video transformer-based framework for Event-camera based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文参考訳（メタデータ） (2023-08-25T23:51:07Z)
Agile gesture recognition for capacitive sensing devices: adapting on-the-job [55.40855017016652]
本システムでは, コンデンサセンサからの信号を手の動き認識器に組み込んだ手動作認識システムを提案する。コントローラは、着用者5本の指それぞれからリアルタイム信号を生成する。機械学習技術を用いて時系列信号を解析し,500ms以内で5本の指を表現できる3つの特徴を同定する。
論文参考訳（メタデータ） (2023-05-12T17:24:02Z)
Online Recognition of Incomplete Gesture Data to Interface Collaborative Robots [0.0]
本稿では,ウェアラブルセンサで捉えた静的ジェスチャー(SG)と動的ジェスチャー(DG)の大きな語彙を分類するためのHRIフレームワークを提案する。認識されたジェスチャーは、朝食の食事を準備する共同作業でロボットを遠隔操作するために使用される。
論文参考訳（メタデータ） (2023-04-13T18:49:08Z)
Cross Vision-RF Gait Re-identification with Low-cost RGB-D Cameras and mmWave Radars [15.662787088335618]
本研究は, クロスモーダルヒト再識別(ReID)の問題に関する研究である。マルチモーダル多人数共振器ReIDのための第1種視覚RFシステムを提案する。提案システムは56名のボランティアのうち92.5%がトップ1の精度、97.5%がトップ5の精度を達成できる。
論文参考訳（メタデータ） (2022-07-16T10:34:25Z)
CNN-based Omnidirectional Object Detection for HermesBot Autonomous Delivery Robot with Preliminary Frame Classification [53.56290185900837]
予備的バイナリフレーム分類を用いた物体検出のためのニューラルネットワークの最適化アルゴリズムを提案する。周囲に6台のローリングシャッターカメラを備えた自律移動ロボットを360度視野として実験装置として使用した。
論文参考訳（メタデータ） (2021-10-22T15:05:37Z)
Domain Adaptive Robotic Gesture Recognition with Unsupervised Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文参考訳（メタデータ） (2021-03-06T09:10:03Z)
Where is my hand? Deep hand segmentation for visual self-recognition in humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文参考訳（メタデータ） (2021-02-09T10:34:32Z)
VGAI: End-to-End Learning of Vision-Based Decentralized Controllers for Robot Swarms [237.25930757584047]
ビジュアル入力のみに基づいて分散制御系を学習することを提案する。初めて、コミュニケーションと視覚知覚という2つの重要な要素の学習を統合する。提案する学習フレームワークは,各ロボットが視覚入力からメッセージを取り出すための畳み込みニューラルネットワーク(CNN)と,これらのメッセージの送信,受信,処理を行うためのSwarm全体のグラフニューラルネットワーク(GNN)を組み合わせる。
論文参考訳（メタデータ） (2020-02-06T15:25:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。