Fugu-MT 論文翻訳(概要): Snapture -- A Novel Neural Architecture for Combined Static and Dynamic Hand Gesture Recognition

論文の概要: Snapture -- A Novel Neural Architecture for Combined Static and Dynamic Hand Gesture Recognition

arxiv url: http://arxiv.org/abs/2205.15862v2
Date: Tue, 27 Feb 2024 10:59:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 01:24:45.980947
Title: Snapture -- A Novel Neural Architecture for Combined Static and Dynamic Hand Gesture Recognition
Title（参考訳）: Snapture -- 静的および動的ハンドジェスチャ認識を併用したニューラルアーキテクチャ
Authors: Hassan Ali, Doreen Jirak, Stefan Wermter
Abstract要約: そこで本研究では,新しいハイブリットハンドジェスチャ認識システムを提案する。我々のアーキテクチャは静的なジェスチャーと動的ジェスチャーの両方を学ぶことができる。本研究は,ロボットとの非言語コミュニケーションのためのジェスチャー認識研究と機械学習応用の両方に貢献する。
参考スコア（独自算出の注目度）: 19.320551882950706
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As robots are expected to get more involved in people's everyday lives, frameworks that enable intuitive user interfaces are in demand. Hand gesture recognition systems provide a natural way of communication and, thus, are an integral part of seamless Human-Robot Interaction (HRI). Recent years have witnessed an immense evolution of computational models powered by deep learning. However, state-of-the-art models fall short in expanding across different gesture domains, such as emblems and co-speech. In this paper, we propose a novel hybrid hand gesture recognition system. Our architecture enables learning both static and dynamic gestures: by capturing a so-called "snapshot" of the gesture performance at its peak, we integrate the hand pose along with the dynamic movement. Moreover, we present a method for analyzing the motion profile of a gesture to uncover its dynamic characteristics and which allows regulating a static channel based on the amount of motion. Our evaluation demonstrates the superiority of our approach on two gesture benchmarks compared to a CNNLSTM baseline. We also provide an analysis on a gesture class basis that unveils the potential of our Snapture architecture for performance improvements. Thanks to its modular implementation, our framework allows the integration of other multimodal data like facial expressions and head tracking, which are important cues in HRI scenarios, into one architecture. Thus, our work contributes both to gesture recognition research and machine learning applications for non-verbal communication with robots.
Abstract（参考訳）: ロボットは人々の日常生活にもっと関与することが期待されているため、直感的なユーザーインターフェースを実現するフレームワークが要求される。ハンドジェスチャー認識システムは自然なコミュニケーション方法を提供しており、シームレスなヒューマンロボットインタラクション(HRI)の不可欠な部分である。近年、ディープラーニングによる計算モデルの膨大な進化が目撃されている。しかし、最先端モデルは、エンブレムや共同音声など、さまざまなジェスチャー領域にまたがる拡張に不足している。本稿では,新しい手ジェスチャー認識システムを提案する。我々のアーキテクチャは静的なジェスチャーと動的ジェスチャーの両方の学習を可能にし、そのピーク時にジェスチャーパフォーマンスのいわゆる「スナップショット」をキャプチャすることで、ダイナミックな動きとハンドポーズを統合する。さらに,ジェスチャーの動作プロファイルを分析し,その動的特性を明らかにすることで,動作量に基づいて静的チャネルを制御できる手法を提案する。 CNNLSTMベースラインと比較して,2つのジェスチャベンチマークに対するアプローチが優れていることを示す。また、パフォーマンス改善のためのSnaptureアーキテクチャの可能性を明らかにするジェスチャークラスに基づく分析も提供します。モジュラ実装により,HRIシナリオの重要な手がかりである表情やヘッドトラッキングといった,他のマルチモーダルデータをひとつのアーキテクチャに統合することが可能になる。そこで本研究は,ロボットとの非言語コミュニケーションのためのジェスチャー認識研究と機械学習応用の両方に貢献する。

関連論文リスト

Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文参考訳（メタデータ） (2025-06-27T18:09:49Z)
How do Foundation Models Compare to Skeleton-Based Approaches for Gesture Recognition in Human-Robot Interaction? [9.094835948226063]
ジェスチャーは、アジャイル生産のような騒々しい環境で、非言語的な人間とロボットのコミュニケーションを可能にする。従来のディープラーニングに基づくジェスチャー認識は、画像、ビデオ、骨格ポーズ推定を入力として使用するタスク固有のアーキテクチャに依存している。 Vision Foundation Models (VFMs) と Vision Language Models (VLMs) は、その強力な一般化能力によって、システムの複雑さを減らす可能性がある。本研究では、V-JEPA(最先端VFM)、Gemini Flash 2.0(マルチモーダルVLM)、HD-GCN(トップパフォーマンススケルトンベース)を比較し、ダイナミックでフルボディのジェスチャー認識にそのようなモデルを適用することを検討する。
論文参考訳（メタデータ） (2025-06-25T19:36:45Z)
DiG-Net: Enhancing Quality of Life through Hyper-Range Dynamic Gesture Recognition in Assistive Robotics [2.625826951636656]
ロボット工学に特化して設計された新しいアプローチを導入し,最大30mの距離で動的ジェスチャー認識を実現する。提案手法では,DADAブロックと時空間グラフモジュールを効果的に組み合わせ,距離対応ゲスチャネットワーク(DiG-Net)を提案する。かなりの距離からジェスチャーを効果的に解釈することにより、DiG-Netは在宅医療、産業安全、遠隔支援シナリオにおける補助ロボットのユーザビリティを著しく向上させる。
論文参考訳（メタデータ） (2025-05-30T16:47:44Z)
Computer Vision-Driven Gesture Recognition: Toward Natural and Intuitive Human-Computer [21.70275919660522]
本研究では,コンピュータビジョンに基づく自然なジェスチャー認識の人間-コンピュータインタラクションへの応用について検討する。手のひらと各指関節を接続することにより、手の動的かつ静的なジェスチャーモデルを形成する。実験により,様々なジェスチャーを効果的に認識し,高い認識精度とリアルタイム応答能力を維持できることが示唆された。
論文参考訳（メタデータ） (2024-12-24T10:13:20Z)
Recognition of Dynamic Hand Gestures in Long Distance using a Web-Camera for Robot Guidance [2.625826951636656]
本研究では,最大20mの遠距離からの動的ジェスチャー認識モデルを提案する。このモデルはSlowFastとTransformerアーキテクチャ(SFT)を統合し、ビデオフレームでキャプチャされた複雑なジェスチャシーケンスを効果的に処理し分類する。
論文参考訳（メタデータ） (2024-06-18T09:17:28Z)
From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文参考訳（メタデータ） (2024-01-03T18:55:16Z)
Efficient Gesture Recognition for the Assistance of Visually Impaired People using Multi-Head Neural Networks [5.883916678819684]
本稿では,視覚障害者支援を目的とした手ジェスチャーによって制御されるモバイルデバイスの対話型システムを提案する。このシステムにより、ユーザーはシンプルな静的、ダイナミックな手の動きをすることでデバイスと対話できる。各ジェスチャーは、オブジェクト認識、シーン記述、イメージスケーリングなど、システム内の異なるアクションをトリガーする。
論文参考訳（メタデータ） (2022-05-14T06:01:47Z)
Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文参考訳（メタデータ） (2021-09-09T16:04:14Z)
SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild [62.450907796261646]
手のジェスチャーの認識は、ソフトウェアによって推定される手の骨格のストリームから直接行うことができる。最近のスケルトンからのジェスチャーや行動認識の進歩にもかかわらず、現在の最先端技術が現実のシナリオでどの程度うまく機能するかは明らかではない。本稿では,SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild contestについて述べる。
論文参考訳（メタデータ） (2021-06-21T10:57:49Z)
Gesture Similarity Analysis on Event Data Using a Hybrid Guided Variational Auto Encoder [3.1148846501645084]
本研究では,背景を自然分解し,時間分解能の高いジェスチャーを解析するニューロモーフィックジェスチャー解析システムを提案する。以上の結果から,VAEが学習した特徴は,新しいジェスチャーのクラスタリングと擬似ラベル付けが可能な類似度尺度を提供することがわかった。
論文参考訳（メタデータ） (2021-03-31T23:58:34Z)
Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。 ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文参考訳（メタデータ） (2021-03-03T23:43:55Z)
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文参考訳（メタデータ） (2020-11-03T11:00:10Z)
Gesture Recognition from Skeleton Data for Intuitive Human-Machine Interaction [0.6875312133832077]
本稿では,手工芸品の集合に基づく動的ジェスチャーのセグメント化と分類のためのアプローチを提案する。ジェスチャー認識方法はスライディングウィンドウを適用し、空間次元と時間次元の両方から情報を抽出する。最終的に、認識されたジェスチャーは、協調ロボットと対話するために使用される。
論文参考訳（メタデータ） (2020-08-26T11:28:50Z)
Hierarchical Contrastive Motion Learning for Video Action Recognition [100.9807616796383]
本稿では,映像フレームから効果的な動き表現を抽出する自己教師型学習フレームワークである階層型コントラスト学習を提案する。提案手法は,ネットワーク内の異なる抽象レベルに対応する動作特徴の階層構造を段階的に学習する。私たちのモーション学習モジュールは軽量で柔軟性があり、様々なバックボーンネットワークに組み込むことができます。
論文参考訳（メタデータ） (2020-07-20T17:59:22Z)
A Deep Learning Framework for Recognizing both Static and Dynamic Gestures [0.8602553195689513]
静的なジェスチャーと動的ジェスチャーの両方を,(奥行き検出なしで)単純なRGBビジョンを用いて認識する統合フレームワークを提案する。我々はポーズ駆動型空間アテンション戦略を採用し、提案した静的・動的ジェスチャネットワーク - StaDNet をガイドする。いくつかの実験において、提案手法が大規模Chalearn 2016データセットの最先端結果を上回っていることが示されている。
論文参考訳（メタデータ） (2020-06-11T10:39:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。