論文の概要: Efficient Gesture Recognition for the Assistance of Visually Impaired
People using Multi-Head Neural Networks
- arxiv url: http://arxiv.org/abs/2205.06980v1
- Date: Sat, 14 May 2022 06:01:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 15:43:32.967307
- Title: Efficient Gesture Recognition for the Assistance of Visually Impaired
People using Multi-Head Neural Networks
- Title(参考訳): マルチヘッドニューラルネットワークを用いた視覚障害者支援のための効率的なジェスチャー認識
- Authors: Samer Alashhab, Antonio Javier Gallego, Miguel \'Angel Lozano
- Abstract要約: 本稿では,視覚障害者支援を目的とした手ジェスチャーによって制御されるモバイルデバイスの対話型システムを提案する。
このシステムにより、ユーザーはシンプルな静的、ダイナミックな手の動きをすることでデバイスと対話できる。
各ジェスチャーは、オブジェクト認識、シーン記述、イメージスケーリングなど、システム内の異なるアクションをトリガーする。
- 参考スコア(独自算出の注目度): 5.883916678819684
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper proposes an interactive system for mobile devices controlled by
hand gestures aimed at helping people with visual impairments. This system
allows the user to interact with the device by making simple static and dynamic
hand gestures. Each gesture triggers a different action in the system, such as
object recognition, scene description or image scaling (e.g., pointing a finger
at an object will show a description of it). The system is based on a
multi-head neural network architecture, which initially detects and classifies
the gestures, and subsequently, depending on the gesture detected, performs a
second stage that carries out the corresponding action. This multi-head
architecture optimizes the resources required to perform different tasks
simultaneously, and takes advantage of the information obtained from an initial
backbone to perform different processes in a second stage. To train and
evaluate the system, a dataset with about 40k images was manually compiled and
labeled including different types of hand gestures, backgrounds (indoors and
outdoors), lighting conditions, etc. This dataset contains synthetic gestures
(whose objective is to pre-train the system in order to improve the results)
and real images captured using different mobile phones. The results obtained
and the comparison made with the state of the art show competitive results as
regards the different actions performed by the system, such as the accuracy of
classification and localization of gestures, or the generation of descriptions
for objects and scenes.
- Abstract(参考訳): 本稿では,視覚障害者支援を目的とした手ジェスチャーによるモバイルデバイスの対話システムを提案する。
このシステムにより、ユーザーはシンプルな静的、ダイナミックな手の動きをすることでデバイスと対話できる。
各ジェスチャは、オブジェクト認識、シーン記述、イメージスケーリング(例えば、オブジェクトに指を向けると、その記述が表示される)など、システム内で異なるアクションをトリガーする。
このシステムは、最初はジェスチャーを検出して分類し、次に検出されたジェスチャーに応じて、対応するアクションを実行する第2段階を実行するマルチヘッドニューラルネットワークアーキテクチャに基づいている。
このマルチヘッドアーキテクチャは、異なるタスクを同時に実行するために必要なリソースを最適化し、初期バックボーンから得られる情報を利用して、第2段階で異なるプロセスを実行する。
システムのトレーニングと評価を行うため、約40kイメージのデータセットを手作業でコンパイルし、さまざまな手のジェスチャー、背景(屋内と屋外)、照明条件などを含むラベル付けした。
このデータセットには、合成ジェスチャー(結果を改善するためにシステムを事前訓練する目的)と、異なる携帯電話を使用してキャプチャされた実際の画像が含まれている。
得られた結果と技術状態との比較は,ジェスチャの分類と局所化の正確性,オブジェクトやシーンの記述の生成など,システムによってなされる異なる動作に関して,競争的な結果を示す。
関連論文リスト
- Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Agile gesture recognition for capacitive sensing devices: adapting
on-the-job [55.40855017016652]
本システムでは, コンデンサセンサからの信号を手の動き認識器に組み込んだ手動作認識システムを提案する。
コントローラは、着用者5本の指それぞれからリアルタイム信号を生成する。
機械学習技術を用いて時系列信号を解析し,500ms以内で5本の指を表現できる3つの特徴を同定する。
論文 参考訳(メタデータ) (2023-05-12T17:24:02Z) - Snapture -- A Novel Neural Architecture for Combined Static and Dynamic
Hand Gesture Recognition [19.320551882950706]
そこで本研究では,新しいハイブリットハンドジェスチャ認識システムを提案する。
我々のアーキテクチャは静的なジェスチャーと動的ジェスチャーの両方を学ぶことができる。
本研究は,ロボットとの非言語コミュニケーションのためのジェスチャー認識研究と機械学習応用の両方に貢献する。
論文 参考訳(メタデータ) (2022-05-28T11:12:38Z) - Towards Predicting Fine Finger Motions from Ultrasound Images via
Kinematic Representation [12.49914980193329]
米国の画像から特定指のアクティベーションを識別する推論問題について検討した。
本研究は,ロボット補綴器のアームアンプへの採用率向上に向けた重要なステップであると考えている。
論文 参考訳(メタデータ) (2022-02-10T18:05:09Z) - Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。
我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。
この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文 参考訳(メタデータ) (2021-09-09T16:04:14Z) - SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild [62.450907796261646]
手のジェスチャーの認識は、ソフトウェアによって推定される手の骨格のストリームから直接行うことができる。
最近のスケルトンからのジェスチャーや行動認識の進歩にもかかわらず、現在の最先端技術が現実のシナリオでどの程度うまく機能するかは明らかではない。
本稿では,SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild contestについて述べる。
論文 参考訳(メタデータ) (2021-06-21T10:57:49Z) - Understanding the hand-gestures using Convolutional Neural Networks and
Generative Adversial Networks [0.0]
このシステムは、リアルタイムハンドトラッキング、トレーニングジェスチャ、および畳み込みニューラルネットワークを用いたジェスチャー認識の3つのモジュールで構成されている。
アルファベットや数字を含む36のジェスチャーの語彙でテストされ、アプローチの有効性が検証されている。
論文 参考訳(メタデータ) (2020-11-10T02:20:43Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Gesture Recognition from Skeleton Data for Intuitive Human-Machine
Interaction [0.6875312133832077]
本稿では,手工芸品の集合に基づく動的ジェスチャーのセグメント化と分類のためのアプローチを提案する。
ジェスチャー認識方法はスライディングウィンドウを適用し、空間次元と時間次元の両方から情報を抽出する。
最終的に、認識されたジェスチャーは、協調ロボットと対話するために使用される。
論文 参考訳(メタデータ) (2020-08-26T11:28:50Z) - 3D dynamic hand gestures recognition using the Leap Motion sensor and
convolutional neural networks [0.0]
本稿では,Leap Motionセンサーを用いて取得した非静的なジェスチャーの認識方法を提案する。
取得したジェスチャー情報をカラー画像に変換し、ジェスチャー中の手関節位置の変化を平面に投影する。
ジェスチャーの分類はDeep Convolutional Neural Network (CNN)を用いて行われる。
論文 参考訳(メタデータ) (2020-03-03T11:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。