論文の概要: Hierarchical Windowed Graph Attention Network and a Large Scale Dataset for Isolated Indian Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2407.14224v1
- Date: Fri, 19 Jul 2024 11:48:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 17:44:33.977763
- Title: Hierarchical Windowed Graph Attention Network and a Large Scale Dataset for Isolated Indian Sign Language Recognition
- Title(参考訳): 階層型ウィンドウ付きグラフ注意ネットワークとインド手話認識のための大規模データセット
- Authors: Suvajit Patra, Arkadip Maitra, Megha Tiwari, K. Kumaran, Swathy Prabhu, Swami Punyeshwarananda, Soumitra Samanta,
- Abstract要約: 本稿では,骨格グラフ構造に基づく大規模孤立型ISLデータセットと新しいSL認識モデルを提案する。
このデータセットは、20名(男性10名、女性10名)の聴覚障害者が記録した聴覚障害者コミュニティで、毎日2,002語の共通語をカバーしている。
- 参考スコア(独自算出の注目度): 0.20075899678041528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Sign Language (SL) recognition is an important task in the computer vision community. To build a robust SL recognition system, we need a considerable amount of data which is lacking particularly in Indian sign language (ISL). In this paper, we propose a large-scale isolated ISL dataset and a novel SL recognition model based on skeleton graph structure. The dataset covers 2,002 daily used common words in the deaf community recorded by 20 (10 male and 10 female) deaf adult signers (contains 40033 videos). We propose a SL recognition model namely Hierarchical Windowed Graph Attention Network (HWGAT) by utilizing the human upper body skeleton graph structure. The HWGAT tries to capture distinctive motions by giving attention to different body parts induced by the human skeleton graph structure. The utility of the proposed dataset and the usefulness of our model are evaluated through extensive experiments. We pre-trained the proposed model on the proposed dataset and fine-tuned it across different sign language datasets further boosting the performance of 1.10, 0.46, 0.78, and 6.84 percentage points on INCLUDE, LSA64, AUTSL and WLASL respectively compared to the existing state-of-the-art skeleton-based models.
- Abstract(参考訳): 自動手話(SL)認識はコンピュータビジョンコミュニティにおいて重要な課題である。
堅牢なSL認識システムを構築するためには,特にインド手話(ISL)に欠けている大量のデータが必要である。
本稿では,骨格グラフ構造に基づく大規模孤立型ISLデータセットと新しいSL認識モデルを提案する。
このデータセットは、20名(男性10名、女性10名)の聴覚障害者が記録した聴覚障害者コミュニティで、毎日2,002語の共通語をカバーしている(ビデオは40033本)。
本稿では,人体上半身の骨格構造を利用して,階層型ウィンドウドグラフ注意ネットワーク(HWGAT)というSL認識モデルを提案する。
HWGATは、ヒト骨格グラフ構造によって誘導される異なる身体部位に注意を向けることで、特徴的な動きを捉えようとする。
提案するデータセットの有用性と本モデルの有用性を,広範囲な実験により評価した。
InCLUDE, LSA64, AUTSL, WLASLの各モデルに比較して, 提案したデータセットを事前学習し, 各種手話データセットを微調整し, さらにINCLUDE, LSA64, AUTSL, WLASLの1.10, 0.46, 0.78および6.84ポイントの性能向上を図った。
関連論文リスト
- Bengali Sign Language Recognition through Hand Pose Estimation using Multi-Branch Spatial-Temporal Attention Model [0.5825410941577593]
画像列から抽出した手関節骨格を考慮した空間的時間的注意に基づくBSL認識モデルを提案する。
本モデルでは, 高次元特徴空間上に投影された統一関節特徴に基づいて, 識別的構造変位と短距離依存性を捉える。
論文 参考訳(メタデータ) (2024-08-26T08:55:16Z) - SkelCap: Automated Generation of Descriptive Text from Skeleton Keypoint Sequences [2.0257616108612373]
我々はこのデータセットをトルコ手話データセットであるAUTSLを中心に構築した。
また,身体運動のテキスト記述を生成できるベースラインモデルであるSkelCapを開発した。
ROUGE-Lスコアは0.98、BLEU-4スコアは0.94である。
論文 参考訳(メタデータ) (2024-05-05T15:50:02Z) - Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文 参考訳(メタデータ) (2023-05-23T21:00:42Z) - Fine-tuning of sign language recognition models: a technical report [0.0]
我々は、他の手話からのデータセットの微調整が、手話認識の品質向上に役立つか、そしてGPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてる。
モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードを提供する。
論文 参考訳(メタデータ) (2023-02-15T14:36:18Z) - Learning from What is Already Out There: Few-shot Sign Language
Recognition with Online Dictionaries [0.0]
UWB-SL-Wildマイクロショットデータセットをオープンソースとして公開しました。
我々は,手話認識モデルを数ショットのシナリオで訓練するための新しいアプローチを導入し,その結果,最先端の結果を得た。
論文 参考訳(メタデータ) (2023-01-10T03:21:01Z) - Privacy-Preserved Neural Graph Similarity Learning [99.78599103903777]
本稿では,グラフ類似性学習のためのプライバシ保存型ニューラルグラフマッチングネットワークモデルPPGMを提案する。
再構成攻撃を防ぐため、提案モデルではデバイス間でノードレベルの表現を通信しない。
グラフプロパティに対する攻撃を軽減するため、両方のベクトルの情報を含む難読化機能は通信される。
論文 参考訳(メタデータ) (2022-10-21T04:38:25Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。