論文の概要: Recognition of Dynamic Hand Gestures in Long Distance using a Web-Camera for Robot Guidance
- arxiv url: http://arxiv.org/abs/2406.12424v1
- Date: Tue, 18 Jun 2024 09:17:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 19:46:52.520218
- Title: Recognition of Dynamic Hand Gestures in Long Distance using a Web-Camera for Robot Guidance
- Title(参考訳): ロボット誘導用ウェブカメラを用いた遠隔遠隔地における動的手指の認識
- Authors: Eran Bamani Beeri, Eden Nissinman, Avishai Sintov,
- Abstract要約: 本研究では,最大20mの遠距離からの動的ジェスチャー認識モデルを提案する。
このモデルはSlowFastとTransformerアーキテクチャ(SFT)を統合し、ビデオフレームでキャプチャされた複雑なジェスチャシーケンスを効果的に処理し分類する。
- 参考スコア(独自算出の注目度): 2.625826951636656
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Dynamic gestures enable the transfer of directive information to a robot. Moreover, the ability of a robot to recognize them from a long distance makes communication more effective and practical. However, current state-of-the-art models for dynamic gestures exhibit limitations in recognition distance, typically achieving effective performance only within a few meters. In this work, we propose a model for recognizing dynamic gestures from a long distance of up to 20 meters. The model integrates the SlowFast and Transformer architectures (SFT) to effectively process and classify complex gesture sequences captured in video frames. SFT demonstrates superior performance over existing models.
- Abstract(参考訳): ダイナミックジェスチャーは、指示情報をロボットに転送することを可能にする。
さらに,ロボットが遠隔地から認識する能力は,コミュニケーションをより効果的かつ実用的なものにする。
しかし、現在の動的ジェスチャーの最先端モデルは認識距離の限界を示し、通常は数メートル以内で効果的な性能を達成する。
本研究では,最大20mの遠距離からの動的ジェスチャー認識モデルを提案する。
このモデルはSlowFastとTransformerアーキテクチャ(SFT)を統合し、ビデオフレームでキャプチャされた複雑なジェスチャシーケンスを効果的に処理し分類する。
SFTは既存のモデルよりも優れた性能を示す。
関連論文リスト
- VertiFormer: A Data-Efficient Multi-Task Transformer for Off-Road Robot Mobility [49.512339092493384]
VertiFormerは、たった1時間のデータでトレーニングされた、新しいデータ効率のマルチタスクトランスフォーマーモデルである。
我々の実験は、限られたデータでオフロードロボットの移動にトランスフォーマーを効果的に活用するための洞察を提供する。
論文 参考訳(メタデータ) (2025-02-01T20:21:00Z) - FAST: Efficient Action Tokenization for Vision-Language-Action Models [98.15494168962563]
離散コサイン変換に基づくロボット動作のための圧縮に基づく新しいトークン化手法を提案する。
FASTをベースとしたFAST+は,100万個のリアルロボットアクショントラジェクトリに基づいて訓練されたユニバーサルロボットアクショントークンである。
論文 参考訳(メタデータ) (2025-01-16T18:57:04Z) - Moto: Latent Motion Token as the Bridging Language for Robot Manipulation [66.18557528695924]
我々はMotoを紹介する。Motoは、映像コンテンツをラテントモーションTokenizerでラテントモーションTokenシーケンスに変換する。
我々は、モーショントークンによるMoto-GPTの事前学習を行い、多様な視覚的動きの知識を捉えることができる。
実際のロボット動作に先立って学習した動きを転送するために、潜伏した動きのトークン予測と実際のロボット制御をシームレスにブリッジするコファインチューニング戦略を実装した。
論文 参考訳(メタデータ) (2024-12-05T18:57:04Z) - Dynamic Gesture Recognition in Ultra-Range Distance for Effective Human-Robot Interaction [2.625826951636656]
本稿では,人間-ロボットインタラクション(HRI)の課題を遠距離で解決する,超距離ジェスチャー認識のための新しいアプローチを提案する。
ビデオデータに人間のジェスチャーを活用することで,現在の手法の限界を超える時間時空間核融合ネットワーク(TSFN)モデルを提案する。
サービスロボット、捜索・救助活動、ドローンによるインタラクションの応用により、我々のアプローチは拡張環境におけるHRIを強化する。
論文 参考訳(メタデータ) (2024-07-31T06:56:46Z) - Ultra-Range Gesture Recognition using a Web-Camera in Human-Robot Interaction [2.240453048130742]
ジェスチャー認識の視覚的手法は, ユーザ・カメラ距離が7m以内で有効であることが示されている。
本稿では,GViT (Graph Vision Transformer) と呼ばれる新しいURGRを提案する。
種々のテストデータに対するフレームワークの評価は98.1%という高い認識率が得られる。
論文 参考訳(メタデータ) (2023-11-26T17:27:26Z) - Dynamic Hand Gesture-Featured Human Motor Adaptation in Tool Delivery
using Voice Recognition [5.13619372598999]
本稿では,革新的なロボット協調フレームワークを提案する。
手の動きや動的動きの認識、音声認識、切り替え可能な制御適応戦略をシームレスに統合する。
ハンドジェスチャ認識における優れた性能を示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-09-20T14:51:09Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - Snapture -- A Novel Neural Architecture for Combined Static and Dynamic
Hand Gesture Recognition [19.320551882950706]
そこで本研究では,新しいハイブリットハンドジェスチャ認識システムを提案する。
我々のアーキテクチャは静的なジェスチャーと動的ジェスチャーの両方を学ぶことができる。
本研究は,ロボットとの非言語コミュニケーションのためのジェスチャー認識研究と機械学習応用の両方に貢献する。
論文 参考訳(メタデータ) (2022-05-28T11:12:38Z) - Motion-aware Dynamic Graph Neural Network for Video Compressive Sensing [14.67994875448175]
ビデオスナップショットイメージング(SCI)は、2D検出器を使用してシーケンシャルなビデオフレームをキャプチャし、それらを1つの測定値に圧縮する。
既存の再建手法の多くは、長距離空間および時間的依存関係を効率的に捉えることができない。
グラフニューラルネットワーク(GNN)に基づくフレキシブルでロバストなアプローチを提案し,距離に関わらず,空間と時間における画素間の非局所的相互作用を効率的にモデル化する。
論文 参考訳(メタデータ) (2022-03-01T12:13:46Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - UniCon: Universal Neural Controller For Physics-based Character Motion [70.45421551688332]
大規模動作データセットから学習することで,異なるスタイルで数千の動作を習得する物理ベースのユニバーサルニューラルコントローラ(UniCon)を提案する。
UniConは、キーボード駆動制御をサポートし、ロコモーションとアクロバティックスキルの大きなプールから引き出されたモーションシーケンスを作成し、ビデオで撮影した人を物理ベースの仮想アバターにテレポートする。
論文 参考訳(メタデータ) (2020-11-30T18:51:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。