論文の概要: HaGRID - HAnd Gesture Recognition Image Dataset
- arxiv url: http://arxiv.org/abs/2206.08219v2
- Date: Thu, 18 Jan 2024 15:02:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 21:15:50.609335
- Title: HaGRID - HAnd Gesture Recognition Image Dataset
- Title(参考訳): hagrid - ハンドジェスチャ認識画像データセット
- Authors: Alexander Kapitanov, Karina Kvanchiani, Alexander Nagaev, Roman
Kraynov, Andrei Makhliarchuk
- Abstract要約: 本稿では,ハンドジェスチャ認識システム構築のための巨大なデータセットであるHaGRIDを紹介し,それを管理するデバイスとのインタラクションに着目した。
ジェスチャーは静的だが、特にいくつかの動的ジェスチャーを設計する能力のために拾われた。
HaGRIDには54,800の画像とジェスチャーラベル付きバウンディングボックスアノテーションが含まれており、手検出とジェスチャー分類のタスクを解決している。
- 参考スコア(独自算出の注目度): 79.21033185563167
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper introduces an enormous dataset, HaGRID (HAnd Gesture Recognition
Image Dataset), to build a hand gesture recognition (HGR) system concentrating
on interaction with devices to manage them. That is why all 18 chosen gestures
are endowed with the semiotic function and can be interpreted as a specific
action. Although the gestures are static, they were picked up, especially for
the ability to design several dynamic gestures. It allows the trained model to
recognize not only static gestures such as "like" and "stop" but also "swipes"
and "drag and drop" dynamic gestures. The HaGRID contains 554,800 images and
bounding box annotations with gesture labels to solve hand detection and
gesture classification tasks. The low variability in context and subjects of
other datasets was the reason for creating the dataset without such
limitations. Utilizing crowdsourcing platforms allowed us to collect samples
recorded by 37,583 subjects in at least as many scenes with subject-to-camera
distances from 0.5 to 4 meters in various natural light conditions. The
influence of the diversity characteristics was assessed in ablation study
experiments. Also, we demonstrate the HaGRID ability to be used for pretraining
models in HGR tasks. The HaGRID and pretrained models are publicly available.
- Abstract(参考訳): 本稿では,HGRID(HAnd Gesture Recognition Image Dataset)という膨大なデータセットを導入し,ハンドジェスチャー認識(HGR)システムを構築する。
そのため、選ばれた18のジェスチャはすべて、セミオティックな機能を持ち、特定のアクションとして解釈できる。
ジェスチャーは静的だが、特にいくつかの動的ジェスチャーを設計する能力のために拾われた。
トレーニングされたモデルでは、"like"や"stop"といった静的なジェスチャーだけでなく、"swipes"や"drag and drop"といった動的ジェスチャーも認識できる。
HaGRIDには54,800の画像とジェスチャーラベル付きバウンディングボックスアノテーションが含まれている。
文脈および他のデータセットの主題における低変数は、そのような制限なしにデータセットを作成する理由である。
クラウドソーシングプラットフォームを利用することで,さまざまな自然光環境において,被写体からカメラまでの距離0.5mから4mのシーンで,37,583名の被験者が記録したサンプルを収集できる。
アブレーション実験では,多様性特性の影響について検討した。
また,HGRタスクの事前学習に使用するHaGRID機能を示す。
HaGRIDと事前訓練されたモデルは一般公開されている。
関連論文リスト
- GeoGround: A Unified Large Vision-Language Model. for Remote Sensing Visual Grounding [31.01378033872341]
GeoGroundは、HBB、OBB、マスクRSビジュアルグラウンドタスクのサポートを統合する新しいフレームワークである。
モデルトレーニングを支援するために,161kの画像テキストペアを含む大規模RS視覚指示追従データセットrefGeoを提案する。
論文 参考訳(メタデータ) (2024-11-16T05:12:11Z) - x-RAGE: eXtended Reality -- Action & Gesture Events Dataset [5.068559907583171]
我々は、XR中心のジェスチャー認識のためのニューロモルフィックで低消費電力のソリューションを実現するための、最初のイベントカメラベースのエゴセントリックジェスチャーデータセットを提案する。
データセットは、https://gitlab.com/NVM_IITD_Research/xrage.com/で公開されています。
論文 参考訳(メタデータ) (2024-10-25T11:44:06Z) - Wearable Sensor-Based Few-Shot Continual Learning on Hand Gestures for Motor-Impaired Individuals via Latent Embedding Exploitation [6.782362178252351]
本稿では,リプレイベースのFew-Shot連続学習フレームワークにおいて,Latent Embedding Exploitation (LEE) 機構を導入する。
本手法は,ジェスチャー先行知識として知られる保存された潜伏埋め込みを利用して,多様な潜伏特徴空間を生成する。
本手法は、運動障害者がウェアラブルデバイスを活用するのに役立ち、そのユニークな動作スタイルを学習し応用することができる。
論文 参考訳(メタデータ) (2024-05-14T21:20:27Z) - Pix2Gif: Motion-Guided Diffusion for GIF Generation [70.64240654310754]
画像からGIF(ビデオ)生成のための移動誘導拡散モデルPix2Gifを提案する。
本研究では,2種類のプロンプトに条件付きソース画像の特徴を空間的に変換する動き誘導型ワープモジュールを提案する。
モデルトレーニングの準備として、TGIFビデオキャプチャデータセットからコヒーレントな画像フレームを抽出し、精巧にデータをキュレートした。
論文 参考訳(メタデータ) (2024-03-07T16:18:28Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - Video-based Pose-Estimation Data as Source for Transfer Learning in
Human Activity Recognition [71.91734471596433]
オンボディデバイスを用いたヒューマンアクティビティ認識(HAR)は、制約のない環境での特定の人間の行動を特定する。
これまでの研究は、トランスファーラーニングが、少ないデータでシナリオに対処するための良い戦略であることを実証した。
本稿では,人為的位置推定を目的としたデータセットを伝達学習の情報源として用いることを提案する。
論文 参考訳(メタデータ) (2022-12-02T18:19:36Z) - SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild [62.450907796261646]
手のジェスチャーの認識は、ソフトウェアによって推定される手の骨格のストリームから直接行うことができる。
最近のスケルトンからのジェスチャーや行動認識の進歩にもかかわらず、現在の最先端技術が現実のシナリオでどの程度うまく機能するかは明らかではない。
本稿では,SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild contestについて述べる。
論文 参考訳(メタデータ) (2021-06-21T10:57:49Z) - Hidden Footprints: Learning Contextual Walkability from 3D Human Trails [70.01257397390361]
現在のデータセットは、人々がどこにいるか、どこにいるかを教えてくれません。
まず、画像間で人の観察を伝播させ、3D情報を利用して、私たちが「隠れ足跡」と呼ぶものを作成することで、有効なラベル付き歩行可能領域の集合を拡大する。
このようなスパースラベルのために設計されたトレーニング戦略を考案し、クラスバランスの分類損失と文脈逆転損失を組み合わせた。
論文 参考訳(メタデータ) (2020-08-19T23:19:08Z) - A Deep Learning Framework for Recognizing both Static and Dynamic
Gestures [0.8602553195689513]
静的なジェスチャーと動的ジェスチャーの両方を,(奥行き検出なしで)単純なRGBビジョンを用いて認識する統合フレームワークを提案する。
我々はポーズ駆動型空間アテンション戦略を採用し、提案した静的・動的ジェスチャネットワーク - StaDNet をガイドする。
いくつかの実験において、提案手法が大規模Chalearn 2016データセットの最先端結果を上回っていることが示されている。
論文 参考訳(メタデータ) (2020-06-11T10:39:02Z) - IPN Hand: A Video Dataset and Benchmark for Real-Time Continuous Hand
Gesture Recognition [11.917058689674327]
我々は,深層ニューラルネットワークのトレーニングと評価が可能な,十分なサイズ,多様性,実世界の要素を備えた,IPN Handという新しいベンチマークデータセットを導入する。
このデータセットには、4000以上のジェスチャーサンプルと、50の異なる被験者から80,000のRGBフレームが含まれている。
本データセットでは,3つの3次元CNNモデルの性能を,孤立的かつ連続的なリアルタイムHGRのタスクに基づいて評価する。
論文 参考訳(メタデータ) (2020-04-20T08:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。