論文の概要: Recognition of Dynamic Hand Gestures in Long Distance using a Web-Camera for Robot Guidance
- arxiv url: http://arxiv.org/abs/2406.12424v1
- Date: Tue, 18 Jun 2024 09:17:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-19 19:46:52.520218
- Title: Recognition of Dynamic Hand Gestures in Long Distance using a Web-Camera for Robot Guidance
- Title(参考訳): ロボット誘導用ウェブカメラを用いた遠隔遠隔地における動的手指の認識
- Authors: Eran Bamani Beeri, Eden Nissinman, Avishai Sintov,
- Abstract要約: 本研究では,最大20mの遠距離からの動的ジェスチャー認識モデルを提案する。
このモデルはSlowFastとTransformerアーキテクチャ(SFT)を統合し、ビデオフレームでキャプチャされた複雑なジェスチャシーケンスを効果的に処理し分類する。
- 参考スコア(独自算出の注目度): 2.625826951636656
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Dynamic gestures enable the transfer of directive information to a robot. Moreover, the ability of a robot to recognize them from a long distance makes communication more effective and practical. However, current state-of-the-art models for dynamic gestures exhibit limitations in recognition distance, typically achieving effective performance only within a few meters. In this work, we propose a model for recognizing dynamic gestures from a long distance of up to 20 meters. The model integrates the SlowFast and Transformer architectures (SFT) to effectively process and classify complex gesture sequences captured in video frames. SFT demonstrates superior performance over existing models.
- Abstract(参考訳): ダイナミックジェスチャーは、指示情報をロボットに転送することを可能にする。
さらに,ロボットが遠隔地から認識する能力は,コミュニケーションをより効果的かつ実用的なものにする。
しかし、現在の動的ジェスチャーの最先端モデルは認識距離の限界を示し、通常は数メートル以内で効果的な性能を達成する。
本研究では,最大20mの遠距離からの動的ジェスチャー認識モデルを提案する。
このモデルはSlowFastとTransformerアーキテクチャ(SFT)を統合し、ビデオフレームでキャプチャされた複雑なジェスチャシーケンスを効果的に処理し分類する。
SFTは既存のモデルよりも優れた性能を示す。
関連論文リスト
- Taccel: Scaling Up Vision-based Tactile Robotics via High-performance GPU Simulation [50.34179054785646]
ロボット,触覚センサ,物体を精度と前例のない速度でモデル化するために,IPCとABDを統合した高性能なシミュレーションプラットフォームであるTaccelを提案する。
Taccelは正確な物理シミュレーションとリアルな触覚信号を提供し、ユーザフレンドリーなAPIを通じて柔軟なロボットセンサー構成をサポートする。
これらの能力は、触覚ロボットの研究と開発を拡大するための強力なツールとして、Taccelを位置づけている。
論文 参考訳(メタデータ) (2025-04-17T12:57:11Z) - Spatial-Temporal Graph Diffusion Policy with Kinematic Modeling for Bimanual Robotic Manipulation [88.83749146867665]
既存のアプローチは、遠く離れた次のベストなエンドエフェクタのポーズを予測するポリシーを学びます。
すると、運動に対する対応する関節回転角を逆運動学を用いて計算する。
本稿では,Kinematics 拡張空間テンポアル gRaph diffuser を提案する。
論文 参考訳(メタデータ) (2025-03-13T17:48:35Z) - FAST: Efficient Action Tokenization for Vision-Language-Action Models [98.15494168962563]
離散コサイン変換に基づくロボット動作のための圧縮に基づく新しいトークン化手法を提案する。
FASTをベースとしたFAST+は,100万個のリアルロボットアクショントラジェクトリに基づいて訓練されたユニバーサルロボットアクショントークンである。
論文 参考訳(メタデータ) (2025-01-16T18:57:04Z) - Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos [64.48857272250446]
我々はMotoを紹介する。Motoは、映像コンテンツをラテントモーションTokenizerでラテントモーションTokenシーケンスに変換する。
我々は、モーショントークンによるMoto-GPTの事前学習を行い、多様な視覚的動きの知識を捉えることができる。
実際のロボット動作に先立って学習した動きを転送するために、潜伏した動きのトークン予測と実際のロボット制御をシームレスにブリッジするコファインチューニング戦略を実装した。
論文 参考訳(メタデータ) (2024-12-05T18:57:04Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - Dynamic Gesture Recognition in Ultra-Range Distance for Effective Human-Robot Interaction [2.625826951636656]
本稿では,人間-ロボットインタラクション(HRI)の課題を遠距離で解決する,超距離ジェスチャー認識のための新しいアプローチを提案する。
ビデオデータに人間のジェスチャーを活用することで,現在の手法の限界を超える時間時空間核融合ネットワーク(TSFN)モデルを提案する。
サービスロボット、捜索・救助活動、ドローンによるインタラクションの応用により、我々のアプローチは拡張環境におけるHRIを強化する。
論文 参考訳(メタデータ) (2024-07-31T06:56:46Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - Ultra-Range Gesture Recognition using a Web-Camera in Human-Robot Interaction [2.240453048130742]
ジェスチャー認識の視覚的手法は, ユーザ・カメラ距離が7m以内で有効であることが示されている。
本稿では,GViT (Graph Vision Transformer) と呼ばれる新しいURGRを提案する。
種々のテストデータに対するフレームワークの評価は98.1%という高い認識率が得られる。
論文 参考訳(メタデータ) (2023-11-26T17:27:26Z) - Dynamic Hand Gesture-Featured Human Motor Adaptation in Tool Delivery
using Voice Recognition [5.13619372598999]
本稿では,革新的なロボット協調フレームワークを提案する。
手の動きや動的動きの認識、音声認識、切り替え可能な制御適応戦略をシームレスに統合する。
ハンドジェスチャ認識における優れた性能を示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-09-20T14:51:09Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - Snapture -- A Novel Neural Architecture for Combined Static and Dynamic
Hand Gesture Recognition [19.320551882950706]
そこで本研究では,新しいハイブリットハンドジェスチャ認識システムを提案する。
我々のアーキテクチャは静的なジェスチャーと動的ジェスチャーの両方を学ぶことができる。
本研究は,ロボットとの非言語コミュニケーションのためのジェスチャー認識研究と機械学習応用の両方に貢献する。
論文 参考訳(メタデータ) (2022-05-28T11:12:38Z) - Motion-aware Dynamic Graph Neural Network for Video Compressive Sensing [14.67994875448175]
ビデオスナップショットイメージング(SCI)は、2D検出器を使用してシーケンシャルなビデオフレームをキャプチャし、それらを1つの測定値に圧縮する。
既存の再建手法の多くは、長距離空間および時間的依存関係を効率的に捉えることができない。
グラフニューラルネットワーク(GNN)に基づくフレキシブルでロバストなアプローチを提案し,距離に関わらず,空間と時間における画素間の非局所的相互作用を効率的にモデル化する。
論文 参考訳(メタデータ) (2022-03-01T12:13:46Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - UniCon: Universal Neural Controller For Physics-based Character Motion [70.45421551688332]
大規模動作データセットから学習することで,異なるスタイルで数千の動作を習得する物理ベースのユニバーサルニューラルコントローラ(UniCon)を提案する。
UniConは、キーボード駆動制御をサポートし、ロコモーションとアクロバティックスキルの大きなプールから引き出されたモーションシーケンスを作成し、ビデオで撮影した人を物理ベースの仮想アバターにテレポートする。
論文 参考訳(メタデータ) (2020-11-30T18:51:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。