論文の概要: Bengali Sign Language Recognition through Hand Pose Estimation using Multi-Branch Spatial-Temporal Attention Model
- arxiv url: http://arxiv.org/abs/2408.14111v1
- Date: Mon, 26 Aug 2024 08:55:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 14:33:14.545197
- Title: Bengali Sign Language Recognition through Hand Pose Estimation using Multi-Branch Spatial-Temporal Attention Model
- Title(参考訳): マルチブランチ空間時間アテンションモデルを用いた手話推定によるベンガル手話認識
- Authors: Abu Saleh Musa Miah, Md. Al Mehedi Hasan, Md Hadiuzzaman, Muhammad Nazrul Islam, Jungpil Shin,
- Abstract要約: 画像列から抽出した手関節骨格を考慮した空間的時間的注意に基づくBSL認識モデルを提案する。
本モデルでは, 高次元特徴空間上に投影された統一関節特徴に基づいて, 識別的構造変位と短距離依存性を捉える。
- 参考スコア(独自算出の注目度): 0.5825410941577593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hand gesture-based sign language recognition (SLR) is one of the most advanced applications of machine learning, and computer vision uses hand gestures. Although, in the past few years, many researchers have widely explored and studied how to address BSL problems, specific unaddressed issues remain, such as skeleton and transformer-based BSL recognition. In addition, the lack of evaluation of the BSL model in various concealed environmental conditions can prove the generalized property of the existing model by facing daily life signs. As a consequence, existing BSL recognition systems provide a limited perspective of their generalisation ability as they are tested on datasets containing few BSL alphabets that have a wide disparity in gestures and are easy to differentiate. To overcome these limitations, we propose a spatial-temporal attention-based BSL recognition model considering hand joint skeletons extracted from the sequence of images. The main aim of utilising hand skeleton-based BSL data is to ensure the privacy and low-resolution sequence of images, which need minimum computational cost and low hardware configurations. Our model captures discriminative structural displacements and short-range dependency based on unified joint features projected onto high-dimensional feature space. Specifically, the use of Separable TCN combined with a powerful multi-head spatial-temporal attention architecture generated high-performance accuracy. The extensive experiments with a proposed dataset and two benchmark BSL datasets with a wide range of evaluations, such as intra- and inter-dataset evaluation settings, demonstrated that our proposed models achieve competitive performance with extremely low computational complexity and run faster than existing models.
- Abstract(参考訳): 手動ジェスチャーに基づく手話認識(SLR)は機械学習の最も高度な応用の1つであり、コンピュータビジョンは手動ジェスチャーを使用する。
過去数年間、多くの研究者がBSL問題に対処する方法を広く研究し研究してきたが、骨格やトランスフォーマーに基づくBSL認識など、特定の未適応の問題が残っている。
さらに, 種々の環境条件下でのBSLモデルの評価の欠如は, 日常生活の兆候に直面することによって, 既存のモデルの一般化された性質を証明することができる。
結果として、既存のBSL認識システムは、ジェスチャが広く、区別が容易なBSLアルファベットがほとんどないデータセットでテストされるため、その一般化能力の限られた視点を提供する。
これらの制約を克服するために,画像列から抽出した手関節骨格を考慮した空間時間的注意に基づくBSL認識モデルを提案する。
手動スケルトンベースのBSLデータを利用する主な目的は、最小計算コストと低ハードウェア構成を必要とするプライバシーと低解像度画像のシーケンスを保証することである。
本モデルでは, 高次元特徴空間上に投影された統一関節特徴に基づいて, 識別的構造変位と短距離依存性を捉える。
具体的には、分離可能なTNと強力なマルチヘッド空間時間アテンションアーキテクチャを組み合わせることで、高性能な精度を実現した。
提案したデータセットと2つのベンチマークBSLデータセットを用いた広範囲な実験により,提案モデルが計算複雑性を極端に低く,既存モデルよりも高速に動作できることが実証された。
関連論文リスト
- New keypoint-based approach for recognising British Sign Language (BSL) from sequences [53.397276621815614]
本稿では,イギリス手話(BSL)単語を連続署名シーケンス内で認識するキーポイントに基づく新しい分類モデルを提案する。
我々のモデルの性能はBOBSLデータセットを用いて評価され、キーポイントベースのアプローチが計算効率とメモリ使用量においてRGBベースのアプローチを上回ることが判明した。
論文 参考訳(メタデータ) (2024-12-12T17:20:27Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Explaining, Analyzing, and Probing Representations of Self-Supervised
Learning Models for Sensor-based Human Activity Recognition [2.2082422928825136]
自己教師付き学習(SSL)フレームワークは、センサベースヒューマンアクティビティ認識(HAR)に広く応用されている。
本稿では,最近のSSLフレームワークであるSimCLRとVICRegの深層表現を解析することを目的とする。
論文 参考訳(メタデータ) (2023-04-14T07:53:59Z) - Self-supervised Learning for Clustering of Wireless Spectrum Activity [0.16777183511743468]
実世界の未ラベルデータにおけるスペクトルの探索における自己教師あり学習(SSL)の利用について検討する。
抽出した特徴量やクラスタリング性能に関して,SSLモデルにより優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-09-22T11:19:49Z) - Combining Spectral and Self-Supervised Features for Low Resource Speech
Recognition and Translation [27.857955394020475]
自己教師付き学習(SSL)モデルは、様々なディープラーニングベースの音声タスクにうまく適用されている。
SSL表現の品質は、SSLトレーニングドメインとターゲットデータドメインの関連性に大きく依存します。
SFとSSLの表現を組み合わせるための学習可能かつ解釈可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-05T20:09:15Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - SUPERB: Speech processing Universal PERformance Benchmark [78.41287216481203]
自然言語処理(NLP)とコンピュータビジョン(CV)の研究を進める上で、SSL(Self-supervised Learning)は不可欠です。
SuperBは、幅広い音声処理タスクで共有モデルのパフォーマンスをベンチマークするためのリーダーボードです。
凍結共有モデル上にタスク特化軽量予測ヘッドを学習することで、SUPERBタスクを解決するためのシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:51:09Z) - On Data-Augmentation and Consistency-Based Semi-Supervised Learning [77.57285768500225]
最近提案された整合性に基づく半教師付き学習(SSL)手法は,複数のSSLタスクにおいて最先端技術である。
これらの進歩にもかかわらず、これらの手法の理解はまだ比較的限られている。
論文 参考訳(メタデータ) (2021-01-18T10:12:31Z) - Pose-based Sign Language Recognition using GCN and BERT [0.0]
単語レベルの手話認識(WSLR)は手話を理解し解釈するための最初の重要なステップである。
ビデオからサインを認識することは、単語の意味が微妙な身体の動き、手の動き、その他の動きの組み合わせに依存するため、難しい作業である。
W SLRの最近のポーズベースアーキテクチャは、異なるフレーム内のポーズ間の空間的および時間的依存関係を同時にモデル化するか、空間的情報を完全に活用せずに時間的情報のみをモデル化する。
本稿では,空間的・時間的情報を別々に捉え,遅延融合を行う新しいポーズベースアプローチを用いて,W SLRの課題に取り組む。
論文 参考訳(メタデータ) (2020-12-01T19:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。