Fugu-MT 論文翻訳(概要): Real-Time Hand Gesture Recognition: Integrating Skeleton-Based Data Fusion and Multi-Stream CNN

論文の概要: Real-Time Hand Gesture Recognition: Integrating Skeleton-Based Data Fusion and Multi-Stream CNN

arxiv url: http://arxiv.org/abs/2406.15003v1
Date: Fri, 21 Jun 2024 09:30:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-24 14:03:36.856029
Title: Real-Time Hand Gesture Recognition: Integrating Skeleton-Based Data Fusion and Multi-Stream CNN
Title（参考訳）: リアルタイムハンドジェスチャ認識:スケルトンベースデータフュージョンとマルチストリームCNNの統合
Authors: Oluwaleke Yusuf, Maki Habib, Mohamed Moustafa,
Abstract要約: 本研究は,様々な実世界の文脈における知覚計算に不可欠なハンドジェスチャ認識(HGR)に焦点を当てた。本稿では,データレベルの融合とEnsemble Tuner Multi-stream CNNアーキテクチャを組み合わせた,革新的なHGRフレームワークを提案する。この手法は,スケルトンモダリティからRGB画像へのジェスチャー情報を効果的に符号化し,意味的ジェスチャー理解を改善しつつ,雑音を最小限に抑える。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study focuses on Hand Gesture Recognition (HGR), which is vital for perceptual computing across various real-world contexts. The primary challenge in the HGR domain lies in dealing with the individual variations inherent in human hand morphology. To tackle this challenge, we introduce an innovative HGR framework that combines data-level fusion and an Ensemble Tuner Multi-stream CNN architecture. This approach effectively encodes spatiotemporal gesture information from the skeleton modality into RGB images, thereby minimizing noise while improving semantic gesture comprehension. Our framework operates in real-time, significantly reducing hardware requirements and computational complexity while maintaining competitive performance on benchmark datasets such as SHREC2017, DHG1428, FPHA, LMDHG and CNR. This improvement in HGR demonstrates robustness and paves the way for practical, real-time applications that leverage resource-limited devices for human-machine interaction and ambient intelligence.
Abstract（参考訳）: 本研究は,実世界の様々な文脈における知覚計算に不可欠なハンドジェスチャ認識(HGR)に焦点を当てた。 HGRドメインの最大の課題は、人間の手の形態に固有の個々のバリエーションを扱うことである。この課題に対処するために,データレベルの融合とEnsemble Tuner Multi-stream CNNアーキテクチャを組み合わせた,革新的なHGRフレームワークを提案する。この手法は,スケルトンモダリティからRGB画像への時空間的ジェスチャー情報を効果的に符号化し,意味的ジェスチャー理解を改善しつつ,雑音を最小限に抑える。 SHREC2017, DHG1428, FPHA, LMDHG, CNRなどのベンチマークデータセット上での競合性能を維持しながら, ハードウェア要件と計算複雑性を大幅に低減する。このHGRの改善は堅牢性を示し、人間と機械の相互作用と環境知性のためにリソース制限されたデバイスを活用する実用的なリアルタイムアプリケーションのための道を開く。

関連論文リスト

MHARFedLLM: Multimodal Human Activity Recognition Using Federated Large Language Model [26.112543245882076]
HAR(Human Activity Recognition)は、フィットネストラッキング、スマートホーム、医療モニタリングなどのアプリケーションにおいて重要な役割を果たす。従来のHARシステムは、モーションセンサーやカメラのような単一のモードに依存しており、現実の環境でのロバスト性や精度を制限している。ヘテロジニアスなデータソースを組み合わせることでHARを進化させる新しいマルチモーダル・フェデレート学習フレームワークであるFedTime-MAGNETを提案する。
論文参考訳（メタデータ） (2025-08-03T10:05:06Z)
AugmentGest: Can Random Data Cropping Augmentation Boost Gesture Recognition Performance? [49.64902130083662]
本稿では、幾何変換、ランダム変動、回転、ズーム、強度に基づく変換を統合する包括的データ拡張フレームワークを提案する。提案手法は,マルチストリームe2eET,FPPRポイントクラウドベースハンドジェスチャ認識(HGR),DD-Networkの3つのモデルで評価される。
論文参考訳（メタデータ） (2025-06-08T16:43:05Z)
Online hand gesture recognition using Continual Graph Transformers [1.3927943269211591]
リアルタイムスケルトンシーケンスストリーミングのための新しいオンライン認識システムを提案する。提案手法は最先端の精度を実現し, 偽陽性率を大幅に低減し, リアルタイムアプリケーションにとって魅力的なソリューションとなる。提案システムは,人間とロボットのコラボレーションや補助技術など,さまざまな領域にシームレスに統合することができる。
論文参考訳（メタデータ） (2025-02-20T17:27:55Z)
ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文参考訳（メタデータ） (2025-01-31T16:11:04Z)
Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL) Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文参考訳（メタデータ） (2024-12-13T18:40:10Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-08-15T02:29:00Z)
Deep-Graph-Sprints: Accelerated Representation Learning in Continuous-Time Dynamic Graphs [4.372841335228306]
連続時間動的グラフ(CTDG)は相互接続された進化するシステムのモデリングに不可欠である。 Deep-Graph-Sprints (DGS)は、低遅延推論要求のCTDG上での効率的な表現学習のために設計された、新しいディープラーニングアーキテクチャである。
論文参考訳（メタデータ） (2024-07-10T14:44:25Z)
DNS SLAM: Dense Neural Semantic-Informed SLAM [92.39687553022605]
DNS SLAMは、ハイブリッド表現を備えた新しいRGB-DセマンティックSLAMアプローチである。本手法は画像に基づく特徴抽出と多視点幾何制約を統合し,外観の細部を改良する。実験により, 合成データと実世界のデータ追跡の両面において, 最先端の性能が得られた。
論文参考訳（メタデータ） (2023-11-30T21:34:44Z)
VoxNeRF: Bridging Voxel Representation and Neural Radiance Fields for Enhanced Indoor View Synthesis [51.49008959209671]
本稿では,室内ビュー合成の品質と効率を高めるために,ボリューム表現を活用する新しいアプローチであるVoxNeRFを紹介する。我々は,空間的特徴を適応的に捉えるためにマルチレゾリューション・ハッシュ・グリッドを使用し,室内シーンの閉塞や複雑な形状を効果的に管理する。我々は,3つの屋内データセットに対するアプローチを検証するとともに,VoxNeRFが最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2023-11-09T11:32:49Z)
A Multi-label Classification Approach to Increase Expressivity of EMG-based Gesture Recognition [4.701158597171363]
本研究の目的は,表面筋電図に基づくジェスチャー認識システム(SEMG)の表現性を効率的に向上することである。動作を2つのバイオメカニカルな独立したコンポーネントに分割する問題変換アプローチを用いる。
論文参考訳（メタデータ） (2023-09-13T20:21:41Z)
SynthoGestures: A Novel Framework for Synthetic Dynamic Hand Gesture Generation for Driving Scenarios [17.94374027261511]
本論文では,Unreal Engine を用いて現実的な手ジェスチャーを合成するフレームワークを提案する。当社のフレームワークはカスタマイズオプションを提供し、オーバーフィッティングのリスクを低減する。データセット作成に要する時間と労力を節約することにより、当社のツールは、自動車アプリケーションのためのジェスチャー認識システムの開発を加速する。
論文参考訳（メタデータ） (2023-09-08T16:32:56Z)
Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:03:23Z)
Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文参考訳（メタデータ） (2021-03-15T12:54:26Z)
DriverMHG: A Multi-Modal Dataset for Dynamic Recognition of Driver Micro Hand Gestures and a Real-Time Recognition Framework [9.128828609564522]
ビデオストリームからの動的マイクロハンドジェスチャのリアルタイム認識は車内シナリオでは困難である。本稿では,スライディングウインドウアプローチを用いて,オンラインで効率的に動作する軽量畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。 3D-MobileNetV2は、最高のオフライン精度を提供する。
論文参考訳（メタデータ） (2020-03-02T14:54:19Z)
LE-HGR: A Lightweight and Efficient RGB-based Online Gesture Recognition Network for Embedded AR Devices [8.509059894058947]
本稿では,低消費電力な組込みデバイス上でのリアルタイムジェスチャー認識を実現するために,軽量で計算効率のよいHGRフレームワークLE-HGRを提案する。提案手法は高精度でロバスト性があり,様々な複雑な相互作用環境において,高性能な性能を実現することができることを示す。
論文参考訳（メタデータ） (2020-01-16T05:23:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。