Fugu-MT 論文翻訳(概要): Real-Time Hand Gesture Recognition: Integrating Skeleton-Based Data Fusion and Multi-Stream CNN

論文の概要: Real-Time Hand Gesture Recognition: Integrating Skeleton-Based Data Fusion and Multi-Stream CNN

arxiv url: http://arxiv.org/abs/2406.15003v2
Date: Sun, 06 Oct 2024 04:06:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 08:45:00.440812
Title: Real-Time Hand Gesture Recognition: Integrating Skeleton-Based Data Fusion and Multi-Stream CNN
Title（参考訳）: リアルタイムハンドジェスチャ認識:スケルトンベースデータフュージョンとマルチストリームCNNの統合
Authors: Oluwaleke Yusuf, Maki Habib, Mohamed Moustafa,
Abstract要約: ハンドジェスチャ認識(HGR)は、様々な現実世界のコンテキストにおいて、直感的な人間とコンピュータのインタラクションを可能にする。既存のフレームワークは、実用的なHGRアプリケーションに必要なリアルタイム要件を満たすのに苦労することが多い。本研究では,動的ハンドジェスチャの静的イメージタスクへの認識を簡略化する,動的HGRのための頑健な骨格ベースのフレームワークを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Hand Gesture Recognition (HGR) enables intuitive human-computer interactions in various real-world contexts. However, existing frameworks often struggle to meet the real-time requirements essential for practical HGR applications. This study introduces a robust, skeleton-based framework for dynamic HGR that simplifies the recognition of dynamic hand gestures into a static image classification task, effectively reducing both hardware and computational demands. Our framework utilizes a data-level fusion technique to encode 3D skeleton data from dynamic gestures into static RGB spatiotemporal images. It incorporates a specialized end-to-end Ensemble Tuner (e2eET) Multi-Stream CNN architecture that optimizes the semantic connections between data representations while minimizing computational needs. Tested across five benchmark datasets (SHREC'17, DHG-14/28, FPHA, LMDHG, and CNR), the framework showed competitive performance with the state-of-the-art. Its capability to support real-time HGR applications was also demonstrated through deployment on standard consumer PC hardware, showcasing low latency and minimal resource usage in real-world settings. The successful deployment of this framework underscores its potential to enhance real-time applications in fields such as virtual/augmented reality, ambient intelligence, and assistive technologies, providing a scalable and efficient solution for dynamic gesture recognition.
Abstract（参考訳）: ハンドジェスチャ認識(HGR)は、様々な現実世界のコンテキストにおいて、直感的な人間とコンピュータのインタラクションを可能にする。しかし、既存のフレームワークは実践的なHGRアプリケーションに必要なリアルタイム要件を満たすのに苦労することが多い。本研究では,動的ハンドジェスチャの静的画像分類タスクへの認識を簡略化し,ハードウェアと計算要求の両方を効果的に削減する,動的HGRのための頑健なスケルトンベースのフレームワークを提案する。動的ジェスチャーから静的なRGB時空間画像への3Dスケルトンデータのエンコードには,データレベルの融合技術を用いる。特殊なエンドツーエンドのEnsemble Tuner (e2eET) マルチストリームCNNアーキテクチャが組み込まれており、データ表現間のセマンティック接続を最適化し、計算ニーズを最小化している。 5つのベンチマークデータセット(SHREC'17、DHG-14/28、FPHA、LMDHG、CNR)でテストされたこのフレームワークは、最先端技術と競合する性能を示した。リアルタイムHGRアプリケーションをサポートする能力は、標準のコンシューマPCハードウェアへのデプロイを通じても実証され、低レイテンシと実際の設定でのリソース使用量の最小化が示された。このフレームワークの展開が成功したことは、バーチャル/拡張現実、環境知性、アシスト技術といった分野におけるリアルタイムアプリケーションを強化する可能性を強調し、動的ジェスチャー認識のためのスケーラブルで効率的なソリューションを提供する。

関連論文リスト

MHARFedLLM: Multimodal Human Activity Recognition Using Federated Large Language Model [26.112543245882076]
HAR(Human Activity Recognition)は、フィットネストラッキング、スマートホーム、医療モニタリングなどのアプリケーションにおいて重要な役割を果たす。従来のHARシステムは、モーションセンサーやカメラのような単一のモードに依存しており、現実の環境でのロバスト性や精度を制限している。ヘテロジニアスなデータソースを組み合わせることでHARを進化させる新しいマルチモーダル・フェデレート学習フレームワークであるFedTime-MAGNETを提案する。
論文参考訳（メタデータ） (2025-08-03T10:05:06Z)
AugmentGest: Can Random Data Cropping Augmentation Boost Gesture Recognition Performance? [49.64902130083662]
本稿では、幾何変換、ランダム変動、回転、ズーム、強度に基づく変換を統合する包括的データ拡張フレームワークを提案する。提案手法は,マルチストリームe2eET,FPPRポイントクラウドベースハンドジェスチャ認識(HGR),DD-Networkの3つのモデルで評価される。
論文参考訳（メタデータ） (2025-06-08T16:43:05Z)
Online hand gesture recognition using Continual Graph Transformers [1.3927943269211591]
リアルタイムスケルトンシーケンスストリーミングのための新しいオンライン認識システムを提案する。提案手法は最先端の精度を実現し, 偽陽性率を大幅に低減し, リアルタイムアプリケーションにとって魅力的なソリューションとなる。提案システムは,人間とロボットのコラボレーションや補助技術など,さまざまな領域にシームレスに統合することができる。
論文参考訳（メタデータ） (2025-02-20T17:27:55Z)
ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文参考訳（メタデータ） (2025-01-31T16:11:04Z)
Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL) Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文参考訳（メタデータ） (2024-12-13T18:40:10Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-08-15T02:29:00Z)
Deep-Graph-Sprints: Accelerated Representation Learning in Continuous-Time Dynamic Graphs [4.372841335228306]
連続時間動的グラフ(CTDG)は相互接続された進化するシステムのモデリングに不可欠である。 Deep-Graph-Sprints (DGS)は、低遅延推論要求のCTDG上での効率的な表現学習のために設計された、新しいディープラーニングアーキテクチャである。
論文参考訳（メタデータ） (2024-07-10T14:44:25Z)
DNS SLAM: Dense Neural Semantic-Informed SLAM [92.39687553022605]
DNS SLAMは、ハイブリッド表現を備えた新しいRGB-DセマンティックSLAMアプローチである。本手法は画像に基づく特徴抽出と多視点幾何制約を統合し,外観の細部を改良する。実験により, 合成データと実世界のデータ追跡の両面において, 最先端の性能が得られた。
論文参考訳（メタデータ） (2023-11-30T21:34:44Z)
VoxNeRF: Bridging Voxel Representation and Neural Radiance Fields for Enhanced Indoor View Synthesis [51.49008959209671]
本稿では,室内ビュー合成の品質と効率を高めるために,ボリューム表現を活用する新しいアプローチであるVoxNeRFを紹介する。我々は,空間的特徴を適応的に捉えるためにマルチレゾリューション・ハッシュ・グリッドを使用し,室内シーンの閉塞や複雑な形状を効果的に管理する。我々は,3つの屋内データセットに対するアプローチを検証するとともに,VoxNeRFが最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2023-11-09T11:32:49Z)
A Multi-label Classification Approach to Increase Expressivity of EMG-based Gesture Recognition [4.701158597171363]
本研究の目的は,表面筋電図に基づくジェスチャー認識システム(SEMG)の表現性を効率的に向上することである。動作を2つのバイオメカニカルな独立したコンポーネントに分割する問題変換アプローチを用いる。
論文参考訳（メタデータ） (2023-09-13T20:21:41Z)
SynthoGestures: A Novel Framework for Synthetic Dynamic Hand Gesture Generation for Driving Scenarios [17.94374027261511]
本論文では,Unreal Engine を用いて現実的な手ジェスチャーを合成するフレームワークを提案する。当社のフレームワークはカスタマイズオプションを提供し、オーバーフィッティングのリスクを低減する。データセット作成に要する時間と労力を節約することにより、当社のツールは、自動車アプリケーションのためのジェスチャー認識システムの開発を加速する。
論文参考訳（メタデータ） (2023-09-08T16:32:56Z)
Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:03:23Z)
Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文参考訳（メタデータ） (2021-03-15T12:54:26Z)
DriverMHG: A Multi-Modal Dataset for Dynamic Recognition of Driver Micro Hand Gestures and a Real-Time Recognition Framework [9.128828609564522]
ビデオストリームからの動的マイクロハンドジェスチャのリアルタイム認識は車内シナリオでは困難である。本稿では,スライディングウインドウアプローチを用いて,オンラインで効率的に動作する軽量畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。 3D-MobileNetV2は、最高のオフライン精度を提供する。
論文参考訳（メタデータ） (2020-03-02T14:54:19Z)
LE-HGR: A Lightweight and Efficient RGB-based Online Gesture Recognition Network for Embedded AR Devices [8.509059894058947]
本稿では,低消費電力な組込みデバイス上でのリアルタイムジェスチャー認識を実現するために,軽量で計算効率のよいHGRフレームワークLE-HGRを提案する。提案手法は高精度でロバスト性があり,様々な複雑な相互作用環境において,高性能な性能を実現することができることを示す。
論文参考訳（メタデータ） (2020-01-16T05:23:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。