論文の概要: HaGRIDv2: 1M Images for Static and Dynamic Hand Gesture Recognition
- arxiv url: http://arxiv.org/abs/2412.01508v1
- Date: Mon, 02 Dec 2024 14:01:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:04.715699
- Title: HaGRIDv2: 1M Images for Static and Dynamic Hand Gesture Recognition
- Title(参考訳): HaGRIDv2:静的および動的ハンドジェスチャ認識のための100万画像
- Authors: Anton Nuzhdin, Alexander Nagaev, Alexander Sautin, Alexander Kapitanov, Karina Kvanchiani,
- Abstract要約: 本稿では,ハンドジェスチャ認識データセットHaGRID-HaGRIDv2の2番目のバージョンを提案する。
我々は会話と制御機能を備えた15の新しいジェスチャーをカバーしている。
動的ジェスチャー認識アルゴリズムを実装し、さらに3つの新しい操作ジェスチャー群を追加して拡張する。
- 参考スコア(独自算出の注目度): 108.45001006078036
- License:
- Abstract: This paper proposes the second version of the widespread Hand Gesture Recognition dataset HaGRID -- HaGRIDv2. We cover 15 new gestures with conversation and control functions, including two-handed ones. Building on the foundational concepts proposed by HaGRID's authors, we implemented the dynamic gesture recognition algorithm and further enhanced it by adding three new groups of manipulation gestures. The ``no gesture" class was diversified by adding samples of natural hand movements, which allowed us to minimize false positives by 6 times. Combining extra samples with HaGRID, the received version outperforms the original in pre-training models for gesture-related tasks. Besides, we achieved the best generalization ability among gesture and hand detection datasets. In addition, the second version enhances the quality of the gestures generated by the diffusion model. HaGRIDv2, pre-trained models, and a dynamic gesture recognition algorithm are publicly available.
- Abstract(参考訳): 本稿では,ハンドジェスチャ認識データセットHaGRID-HaGRIDv2の2番目のバージョンを提案する。
我々は会話と制御機能を備えた15の新しいジェスチャーをカバーしている。
本研究では,HaGRIDの著者らによって提案された基本概念に基づいて動的ジェスチャー認識アルゴリズムを実装し,さらに3つの新しい操作ジェスチャー群を追加して拡張した。
no gesture"クラスは、自然手の動きのサンプルを追加することで多様化され、偽陽性を6倍に抑えることができた。
余分なサンプルとHaGRIDを組み合わせることで、受信したバージョンは、ジェスチャー関連のタスクのトレーニング前のモデルでオリジナルよりも優れています。
また,ジェスチャーおよび手検出データセット間での最高の一般化能力も達成した。
さらに、第2版は拡散モデルによって生成されたジェスチャーの品質を向上させる。
HaGRIDv2、事前訓練されたモデル、動的ジェスチャー認識アルゴリズムが公開されている。
関連論文リスト
- Learning Interaction-aware 3D Gaussian Splatting for One-shot Hand Avatars [47.61442517627826]
本稿では,3次元ガウススプラッティング(GS)と単一画像入力と手を相互作用するアニマタブルアバターを提案する。
提案手法は大規模なInterHand2.6Mデータセットの広範な実験により検証される。
論文 参考訳(メタデータ) (2024-10-11T14:14:51Z) - An Advanced Deep Learning Based Three-Stream Hybrid Model for Dynamic Hand Gesture Recognition [1.7985212575295124]
本稿では,RGBピクセルとスケルトンベースの特徴を組み合わせた3ストリームハイブリッドモデルを提案する。
手順では、拡張を含むデータセットを前処理し、回転、翻訳、独立系をスケールしました。
主に,画素ベースの深層学習機能とpos推定ベースの積み重ね深層学習機能を利用して,強力な特徴ベクトルを作成した。
論文 参考訳(メタデータ) (2024-08-15T09:05:00Z) - HaGRID - HAnd Gesture Recognition Image Dataset [79.21033185563167]
本稿では,ハンドジェスチャ認識システム構築のための巨大なデータセットであるHaGRIDを紹介し,それを管理するデバイスとのインタラクションに着目した。
ジェスチャーは静的だが、特にいくつかの動的ジェスチャーを設計する能力のために拾われた。
HaGRIDには54,800の画像とジェスチャーラベル付きバウンディングボックスアノテーションが含まれており、手検出とジェスチャー分類のタスクを解決している。
論文 参考訳(メタデータ) (2022-06-16T14:41:32Z) - HandVoxNet++: 3D Hand Shape and Pose Estimation using Voxel-Based Neural
Networks [71.09275975580009]
HandVoxNet++は、完全に教師された方法でトレーニングされた3Dおよびグラフ畳み込みを備えた、ボクセルベースのディープネットワークである。
HandVoxNet++は2つの手形状表現に依存している。1つは手形状の3Dボキセル化グリッドで、メッシュトポロジを保存していない。
我々は、新しいニューラルグラフ畳み込みに基づくメッシュレジストレーション(GCN-MeshReg)または古典的セグメントワイド非リジッド重力法(NRGA++)と、手表面をボキセル化ハンド形状に整列させることにより、両表現の利点を組み合わせる。
論文 参考訳(メタデータ) (2021-07-02T17:59:54Z) - SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild [62.450907796261646]
手のジェスチャーの認識は、ソフトウェアによって推定される手の骨格のストリームから直接行うことができる。
最近のスケルトンからのジェスチャーや行動認識の進歩にもかかわらず、現在の最先端技術が現実のシナリオでどの程度うまく機能するかは明らかではない。
本稿では,SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild contestについて述べる。
論文 参考訳(メタデータ) (2021-06-21T10:57:49Z) - A Prototype-Based Generalized Zero-Shot Learning Framework for Hand
Gesture Recognition [5.992264231643021]
ハンドジェスチャ認識のためのエンドツーエンドのプロトタイプベースのフレームワークを提案する。
最初のブランチは、ジェスチャー表現を学習するプロトタイプベースの検出器である。
2番目のブランチはゼロショットラベル予測器で、目に見えないクラスの機能を入力として取り、予測を出力する。
論文 参考訳(メタデータ) (2020-09-29T12:18:35Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - FineHand: Learning Hand Shapes for American Sign Language Recognition [16.862375555609667]
本稿では,手形状の埋め込みを効果的に学習するためのアプローチを提案する。
手形認識には手動ラベル付き手形と高信頼度予測を組み合わせて深部畳み込みニューラルネットワーク(CNN)を訓練する。
より高品質な手形状モデルが最終映像ジェスチャー分類の精度を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2020-03-04T23:32:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。