論文の概要: Connecting the Dots: Leveraging Spatio-Temporal Graph Neural Networks
for Accurate Bangla Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2401.12210v1
- Date: Mon, 22 Jan 2024 18:52:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 12:50:02.222344
- Title: Connecting the Dots: Leveraging Spatio-Temporal Graph Neural Networks
for Accurate Bangla Sign Language Recognition
- Title(参考訳): ドットの接続:バングラ手話認識のための時空間グラフニューラルネットワークの活用
- Authors: Haz Sameen Shahgir, Khondker Salman Sayeed, Md Toki Tahmid, Tanjeem
Azwad Zaman, Md. Zarif Ul Alam
- Abstract要約: 我々は,40語以上の611ビデオからなる単語レベルBandgla Sign Languageデータセット(BdSL40)を提案する。
これは単語レベルのBdSL認識に関する最初の研究であり、データセットはBangla Sign Language Dictionary (1997)を用いてインド手話(ISL)から転写された。
この研究は、BdSL、West Bengal Sign Language、ISL間の重要な語彙的および意味的類似点と、文献におけるBdSLのワードレベルデータセットの欠如を強調した。
- 参考スコア(独自算出の注目度): 2.624902795082451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Deep Learning and Computer Vision have been successfully
leveraged to serve marginalized communities in various contexts. One such area
is Sign Language - a primary means of communication for the deaf community.
However, so far, the bulk of research efforts and investments have gone into
American Sign Language, and research activity into low-resource sign languages
- especially Bangla Sign Language - has lagged significantly. In this research
paper, we present a new word-level Bangla Sign Language dataset - BdSL40 -
consisting of 611 videos over 40 words, along with two different approaches:
one with a 3D Convolutional Neural Network model and another with a novel Graph
Neural Network approach for the classification of BdSL40 dataset. This is the
first study on word-level BdSL recognition, and the dataset was transcribed
from Indian Sign Language (ISL) using the Bangla Sign Language Dictionary
(1997). The proposed GNN model achieved an F1 score of 89%. The study
highlights the significant lexical and semantic similarity between BdSL, West
Bengal Sign Language, and ISL, and the lack of word-level datasets for BdSL in
the literature. We release the dataset and source code to stimulate further
research.
- Abstract(参考訳): 近年のDeep LearningとComputer Visionの進歩は、様々な文脈において、余分なコミュニティに役立てるためにうまく活用されている。
そのような領域の1つは手話であり、聴覚障害者コミュニティの主要なコミュニケーション手段である。
しかし、これまでのところ、アメリカ手話(American Sign Language)の研究努力と投資の大部分は、低リソース手話(特にBangla手話)の研究活動に大きく影響している。
本稿では、3次元畳み込みニューラルネットワークモデルと、BdSL40データセットの分類のための新しいグラフニューラルネットワークアプローチの2つのアプローチとともに、611本の動画を40語以上で合成する新しい単語レベルバングラ手話データセットBdSL40を提案する。
これは単語レベルのBdSL認識に関する最初の研究であり、データセットはBangla Sign Language Dictionary (1997)を用いてインド手話(ISL)から転写された。
提案されたGNNモデルはF1スコアが89%に達した。
この研究は、BdSL、West Bengal Sign Language、ISL間の重要な語彙的および意味的類似点と、文献におけるBdSLのワードレベルデータセットの欠如を強調した。
さらなる研究を促進するために、データセットとソースコードをリリースします。
関連論文リスト
- SCOPE: Sign Language Contextual Processing with Embedding from LLMs [49.5629738637893]
世界中の約7000万人の聴覚障害者が使用する手話は、視覚的および文脈的な情報を伝える視覚言語である。
視覚に基づく手話認識(SLR)と翻訳(SLT)の現在の手法は、限られたデータセットの多様性と文脈に関連のある情報の無視により、対話シーンに苦慮している。
SCOPEは、コンテキスト認識型ビジョンベースSLRおよびSLTフレームワークである。
論文 参考訳(メタデータ) (2024-09-02T08:56:12Z) - BAUST Lipi: A BdSL Dataset with Deep Learning Based Bangla Sign Language Recognition [0.5497663232622964]
聴覚障害者コミュニティとのコミュニケーションを強化するために、手話の研究が盛んである。
重要な障壁の1つは、包括的なBangla手話データセットがないことである。
18,000個の画像からなる新しいBdSLデータセットを導入し,各画像のサイズを224×224ピクセルとする。
我々は、複数の畳み込み層、アクティベーション機能、ドロップアウト技術、LSTM層を統合するハイブリッド畳み込みニューラルネットワーク(CNN)モデルを考案した。
論文 参考訳(メタデータ) (2024-08-20T03:35:42Z) - iSign: A Benchmark for Indian Sign Language Processing [5.967764101493575]
iSignは、Indian Sign Language (ISL) 処理のベンチマークである。
我々は118K以上のビデオ文/フレーズペアを持つ最大のISL- Englishデータセットの1つをリリースする。
ISLの動作に関するいくつかの言語的な洞察を、提案したベンチマークに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-07-07T15:07:35Z) - BdSLW60: A Word-Level Bangla Sign Language Dataset [3.8631510994883254]
我々は、制約のない自然な設定で、BdSLW60という名前の包括的BdSLワードレベルデータセットを作成します。
データセットには60のBangla手話が含まれており、18人の手話専門家が手話専門家の監督の下で提供した9307のビデオトライアルがかなりの規模で提供されている。
本稿では,SVM(Support Vector Machine)を用いたBdSLW60データセットのベンチマーク結果について報告する。
論文 参考訳(メタデータ) (2024-02-13T18:02:58Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Joint Prediction and Denoising for Large-scale Multilingual
Self-supervised Learning [69.77973092264338]
我々は、より強力な技術がより効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示します。
我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。
このモデルではXLS-Rの性能を94%維持でき、データの3%しか保持できない。
論文 参考訳(メタデータ) (2023-09-26T23:55:57Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - LSA-T: The first continuous Argentinian Sign Language dataset for Sign
Language Translation [52.87578398308052]
手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。
本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。
このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-11-14T14:46:44Z) - Bangla Natural Language Processing: A Comprehensive Review of Classical,
Machine Learning, and Deep Learning Based Methods [3.441093402715499]
バングラ語は世界で7番目に話される言語であり、2億6500万人の母国語話者と非母国語話者がいる。
英語は、オンラインリソース、技術知識、ジャーナル、ドキュメントの主要な言語である。
オンラインおよび技術分野において、Bangla言語の使用を容易にするため、多くの取り組みが進行中である。
論文 参考訳(メタデータ) (2021-05-31T10:58:58Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。