論文の概要: Word level Bangla Sign Language Dataset for Continuous BSL Recognition
- arxiv url: http://arxiv.org/abs/2302.11559v2
- Date: Sun, 9 Apr 2023 18:48:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 20:46:19.010898
- Title: Word level Bangla Sign Language Dataset for Continuous BSL Recognition
- Title(参考訳): 連続BSL認識のための単語レベルバングラ手話データセット
- Authors: Md Shamimul Islam, A.J.M. Akhtarujjaman Joha, Md Nur Hossain, Sohaib
Abdullah, Ibrahim Elwarfalli, Md Mahedi Hasan
- Abstract要約: 我々は,手話を通してコミュニケーションする個人のためのポーズ情報の時間的ダイナミクスを捉える,注目に基づくBi-GRUモデルを開発した。
モデルの精度は85.64%と報告されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: An robust sign language recognition system can greatly alleviate
communication barriers, particularly for people who struggle with verbal
communication. This is crucial for human growth and progress as it enables the
expression of thoughts, feelings, and ideas. However, sign recognition is a
complex task that faces numerous challenges such as same gesture patterns for
multiple signs, lighting, clothing, carrying conditions, and the presence of
large poses, as well as illumination discrepancies across different views.
Additionally, the absence of an extensive Bangla sign language video dataset
makes it even more challenging to operate recognition systems, particularly
when utilizing deep learning techniques. In order to address this issue,
firstly, we created a large-scale dataset called the MVBSL-W50, which comprises
50 isolated words across 13 categories. Secondly, we developed an
attention-based Bi-GRU model that captures the temporal dynamics of pose
information for individuals communicating through sign language. The proposed
model utilizes human pose information, which has shown to be successful in
analyzing sign language patterns. By focusing solely on movement information
and disregarding body appearance and environmental factors, the model is
simplified and can achieve a speedier performance. The accuracy of the model is
reported to be 85.64%.
- Abstract(参考訳): 堅牢な手話認識システムは、特に言語コミュニケーションに苦しむ人々にとって、コミュニケーション障壁を大幅に緩和することができる。
これは、思考、感情、アイデアの表現を可能にするため、人間の成長と進歩に不可欠である。
しかし、サイン認識は複雑な作業であり、複数の標識に対する同一のジェスチャーパターン、照明、衣服、搬送条件、大きなポーズの存在、異なる視点での照明の相違など多くの課題に直面している。
さらに、広範なBangla手話ビデオデータセットがないため、特にディープラーニング技術を利用する場合、認識システムの運用がさらに困難になる。
この問題に対処するため、まず、13のカテゴリにまたがる50の単語からなる、mvbsl-w50と呼ばれる大規模データセットを作成しました。
第2に,手話を通してコミュニケーションする個人のためのポーズ情報の時間的ダイナミクスを捉える,注目に基づくBi-GRUモデルを開発した。
提案モデルでは,手話パターンの分析に成功している人間のポーズ情報を利用する。
移動情報のみに焦点をあて、身体の外観や環境要因を無視することにより、モデルを簡素化し、より高速な性能を実現することができる。
モデルの精度は85.64%と報告されている。
関連論文リスト
- Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - Nonverbal Interaction Detection [83.40522919429337]
この研究は、社会的文脈における人間の非言語的相互作用を理解するという新たな課題に対処する。
我々はNVIと呼ばれる新しい大規模データセットを寄贈し、人間とそれに対応する社会グループのための境界ボックスを含むように細心の注意を払ってアノテートする。
第2に,非言語的インタラクション検出のための新たなタスクNVI-DETを構築し,画像から三つ子を識別する。
第3に,非言語相互作用検出ハイパーグラフ (NVI-DEHR) を提案する。
論文 参考訳(メタデータ) (2024-07-11T02:14:06Z) - Sign Language Recognition Based On Facial Expression and Hand Skeleton [2.5879170041667523]
我々は手と表情の骨格的特徴を統合した手話認識ネットワークを提案する。
表情情報を取り入れることで、手話認識の精度と堅牢性が向上する。
論文 参考訳(メタデータ) (2024-07-02T13:02:51Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - Enhancing Brazilian Sign Language Recognition through Skeleton Image Representation [2.6311088262657907]
本研究は、身体、手、顔のランドマークを時間を通して抽出し、2次元画像として符号化する、分離手話認識(ISLR)アプローチを提案する。
ブラジル手話(LIBRAS)における2つの広く認識されているデータセットの性能指標から,本手法が最先端の指標を上回ったことを示す。
より正確であることに加えて、より単純なネットワークアーキテクチャに依存し、入力としてのみRGBデータに依存するため、我々の手法はより時間効率が高く、訓練が容易である。
論文 参考訳(メタデータ) (2024-04-29T23:21:17Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Fine-tuning of sign language recognition models: a technical report [0.0]
我々は、他の手話からのデータセットの微調整が、手話認識の品質向上に役立つか、そしてGPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてる。
モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードを提供する。
論文 参考訳(メタデータ) (2023-02-15T14:36:18Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。