論文の概要: BAUST Lipi: A BdSL Dataset with Deep Learning Based Bangla Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2408.10518v1
- Date: Tue, 20 Aug 2024 03:35:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 15:13:44.013696
- Title: BAUST Lipi: A BdSL Dataset with Deep Learning Based Bangla Sign Language Recognition
- Title(参考訳): BAUST Lipi: ディープラーニングに基づくバングラ手話認識を用いたBdSLデータセット
- Authors: Md Hadiuzzaman, Mohammed Sowket Ali, Tamanna Sultana, Abdur Raj Shafi, Abu Saleh Musa Miah, Jungpil Shin,
- Abstract要約: 聴覚障害者コミュニティとのコミュニケーションを強化するために、手話の研究が盛んである。
重要な障壁の1つは、包括的なBangla手話データセットがないことである。
18,000個の画像からなる新しいBdSLデータセットを導入し,各画像のサイズを224×224ピクセルとする。
我々は、複数の畳み込み層、アクティベーション機能、ドロップアウト技術、LSTM層を統合するハイブリッド畳み込みニューラルネットワーク(CNN)モデルを考案した。
- 参考スコア(独自算出の注目度): 0.5497663232622964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People commonly communicate in English, Arabic, and Bengali spoken languages through various mediums. However, deaf and hard-of-hearing individuals primarily use body language and sign language to express their needs and achieve independence. Sign language research is burgeoning to enhance communication with the deaf community. While many researchers have made strides in recognizing sign languages such as French, British, Arabic, Turkish, and American, there has been limited research on Bangla sign language (BdSL) with less-than-satisfactory results. One significant barrier has been the lack of a comprehensive Bangla sign language dataset. In our work, we introduced a new BdSL dataset comprising alphabets totaling 18,000 images, with each image being 224x224 pixels in size. Our dataset encompasses 36 Bengali symbols, of which 30 are consonants and the remaining six are vowels. Despite our dataset contribution, many existing systems continue to grapple with achieving high-performance accuracy for BdSL. To address this, we devised a hybrid Convolutional Neural Network (CNN) model, integrating multiple convolutional layers, activation functions, dropout techniques, and LSTM layers. Upon evaluating our hybrid-CNN model with the newly created BdSL dataset, we achieved an accuracy rate of 97.92\%. We are confident that both our BdSL dataset and hybrid CNN model will be recognized as significant milestones in BdSL research.
- Abstract(参考訳): 人々は様々な媒体を通して英語、アラビア語、ベンガル語でコミュニケーションをとる。
しかし、聴覚障害や難聴の個人は、主にボディランゲージと手話を使用して、自身のニーズを表現し、独立を達成する。
聴覚障害者コミュニティとのコミュニケーションを強化するために、手話の研究が盛んである。
多くの研究者がフランス語、イギリス語、アラビア語、トルコ語、アメリカなどの手話の認識に力を注いでいるが、バングラ手話(BdSL)についてはあまり満足のいく結果が得られていない。
重要な障壁の1つは、包括的なBangla手話データセットがないことである。
そこで本研究では,224×224ピクセルの18,000個の画像からなるBdSLデータセットを新たに導入した。
我々のデータセットは36のベンガル記号を含み、そのうち30は子音、残りの6つは母音である。
データセットのコントリビューションにもかかわらず、既存のシステムの多くは、BdSLの高性能な精度を保ち続けています。
そこで我々は,複数の畳み込み層,アクティベーション機能,ドロップアウト技術,LSTM層を統合したハイブリッド畳み込みニューラルネットワーク(CNN)モデルを考案した。
新たに作成したBdSLデータセットを用いてハイブリッドCNNモデルを評価した結果,精度97.92\%を達成した。
BdSLデータセットとハイブリッドCNNモデルの両方が、BdSL研究において重要なマイルストーンとして認識されると確信しています。
関連論文リスト
- SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。
HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。
SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - SCOPE: Sign Language Contextual Processing with Embedding from LLMs [49.5629738637893]
世界中の約7000万人の聴覚障害者が使用する手話は、視覚的および文脈的な情報を伝える視覚言語である。
視覚に基づく手話認識(SLR)と翻訳(SLT)の現在の手法は、限られたデータセットの多様性と文脈に関連のある情報の無視により、対話シーンに苦慮している。
SCOPEは、コンテキスト認識型ビジョンベースSLRおよびSLTフレームワークである。
論文 参考訳(メタデータ) (2024-09-02T08:56:12Z) - SignSpeak: Open-Source Time Series Classification for ASL Translation [0.12499537119440243]
本稿では,低コストでリアルタイムなASL-to-Speech翻訳グローブと手話パターンの学習データセットを提案する。
このデータセットを、LSTM、GRU、Transformersなどの教師付き学習モデルでベンチマークし、最高のモデルが92%の精度を達成した。
当社のオープンソースデータセット、モデル、グローブデザインは、コスト効率を維持しつつ、正確かつ効率的なASLトランスレータを提供する。
論文 参考訳(メタデータ) (2024-06-27T17:58:54Z) - BdSLW60: A Word-Level Bangla Sign Language Dataset [3.8631510994883254]
我々は、制約のない自然な設定で、BdSLW60という名前の包括的BdSLワードレベルデータセットを作成します。
データセットには60のBangla手話が含まれており、18人の手話専門家が手話専門家の監督の下で提供した9307のビデオトライアルがかなりの規模で提供されている。
本稿では,SVM(Support Vector Machine)を用いたBdSLW60データセットのベンチマーク結果について報告する。
論文 参考訳(メタデータ) (2024-02-13T18:02:58Z) - Connecting the Dots: Leveraging Spatio-Temporal Graph Neural Networks
for Accurate Bangla Sign Language Recognition [2.624902795082451]
我々は,40語以上の611ビデオからなる単語レベルBandgla Sign Languageデータセット(BdSL40)を提案する。
これは単語レベルのBdSL認識に関する最初の研究であり、データセットはBangla Sign Language Dictionary (1997)を用いてインド手話(ISL)から転写された。
この研究は、BdSL、West Bengal Sign Language、ISL間の重要な語彙的および意味的類似点と、文献におけるBdSLのワードレベルデータセットの欠如を強調した。
論文 参考訳(メタデータ) (2024-01-22T18:52:51Z) - Neural Sign Actors: A diffusion model for 3D sign language production from text [51.81647203840081]
手話 (SL) は難聴者および難聴者コミュニティの主要なコミュニケーション手段である。
この研究は、現実的なニューラルサインアバターに向けて重要な一歩を踏み出し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - Joint Prediction and Denoising for Large-scale Multilingual
Self-supervised Learning [69.77973092264338]
我々は、より強力な技術がより効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示します。
我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。
このモデルではXLS-Rの性能を94%維持でき、データの3%しか保持できない。
論文 参考訳(メタデータ) (2023-09-26T23:55:57Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - BdSL36: A Dataset for Bangladeshi Sign Letters Recognition [4.010701467679244]
バングラデシュ手話(バングラデシュ語:BdSL)はバングラデシュの聴覚障害者のためのコミュニケーション手段である。
本稿では,BdSL36というデータセットについて述べる。
さらに,オブジェクト検出アルゴリズムの可能性を利用するため,約4万枚の画像にバウンディングボックスを付加したアノテートを行った。
論文 参考訳(メタデータ) (2021-10-02T19:52:48Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Modeling Global Body Configurations in American Sign Language [2.8575516056239576]
アメリカ手話 (American Sign Language, ASL) は、アメリカ合衆国で4番目に一般的に使われている言語である。
ASL(英語: ASL)は、アメリカ合衆国とカナダの英語圏で最も一般的に使われている言語である。
論文 参考訳(メタデータ) (2020-09-03T06:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。