論文の概要: BdSLW60: A Word-Level Bangla Sign Language Dataset
- arxiv url: http://arxiv.org/abs/2402.08635v1
- Date: Tue, 13 Feb 2024 18:02:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 14:16:24.055560
- Title: BdSLW60: A Word-Level Bangla Sign Language Dataset
- Title(参考訳): BdSLW60: ワードレベルバングラ手話データセット
- Authors: Husne Ara Rubaiyeat, Hasan Mahmud, Ahsan Habib, Md. Kamrul Hasan
- Abstract要約: 我々は、制約のない自然な設定で、BdSLW60という名前の包括的BdSLワードレベルデータセットを作成します。
データセットには60のBangla手話が含まれており、18人の手話専門家が手話専門家の監督の下で提供した9307のビデオトライアルがかなりの規模で提供されている。
本稿では,SVM(Support Vector Machine)を用いたBdSLW60データセットのベンチマーク結果について報告する。
- 参考スコア(独自算出の注目度): 3.8631510994883254
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Sign language discourse is an essential mode of daily communication for the
deaf and hard-of-hearing people. However, research on Bangla Sign Language
(BdSL) faces notable limitations, primarily due to the lack of datasets.
Recognizing wordlevel signs in BdSL (WL-BdSL) presents a multitude of
challenges, including the need for well-annotated datasets, capturing the
dynamic nature of sign gestures from facial or hand landmarks, developing
suitable machine learning or deep learning-based models with substantial video
samples, and so on. In this paper, we address these challenges by creating a
comprehensive BdSL word-level dataset named BdSLW60 in an unconstrained and
natural setting, allowing positional and temporal variations and allowing sign
users to change hand dominance freely. The dataset encompasses 60 Bangla sign
words, with a significant scale of 9307 video trials provided by 18 signers
under the supervision of a sign language professional. The dataset was
rigorously annotated and cross-checked by 60 annotators. We also introduced a
unique approach of a relative quantization-based key frame encoding technique
for landmark based sign gesture recognition. We report the benchmarking of our
BdSLW60 dataset using the Support Vector Machine (SVM) with testing accuracy up
to 67.6% and an attention-based bi-LSTM with testing accuracy up to 75.1%. The
dataset is available at https://www.kaggle.com/datasets/hasaniut/bdslw60 and
the code base is accessible from https://github.com/hasanssl/BdSLW60_Code.
- Abstract(参考訳): 手話の会話は、聴覚障害者や難聴者にとって、日常的なコミュニケーションの重要な手段である。
しかしながら、Bandgla Sign Language (BdSL)の研究は、主にデータセットの欠如により、顕著な制限に直面している。
BdSL (WL-BdSL) におけるワードレベル記号の認識には、よくアノテーションされたデータセットの必要性、顔や手のランドマークから手の動きの動的な性質を捉えること、適切な機械学習やディープラーニングベースのモデルを開発することなど、さまざまな課題がある。
本稿では,BdSLW60という単語レベルの包括的データセットを非拘束かつ自然な設定で作成し,位置や時間的変化を可能とし,手指による手指支配を自由に変更できるようにすることにより,これらの課題に対処する。
データセットは60のバングラ手話語を包含しており、手話の専門家の監督下で18人の手話家によって提供された9307のビデオトライアルのかなりの規模がある。
データセットは厳密にアノテーションされ、60のアノテーションによってクロスチェックされた。
また,ランドマークに基づく手指ジェスチャ認識のための,相対量子化に基づくキーフレーム符号化手法も導入した。
我々は、サポートベクターマシン(svm)を用いたbdslw60データセットのベンチマークを、テスト精度が67.6%、注意に基づくbi-lstmが75.1%と報告した。
データセットはhttps://www.kaggle.com/datasets/hasaniut/bdslw60で入手でき、コードベースはhttps://github.com/hasanssl/BdSLW60_Codeからアクセスできる。
関連論文リスト
- Bukva: Russian Sign Language Alphabet [75.42794328290088]
本稿では,ロシア手話(RSL)ダクティルとしても知られる,ロシア語の指先文字の認識について検討する。
ダクティル (Dactyl) は手の動きが書かれた言語の個々の文字を表す手話の構成要素である。
当社は、RSLダクチル認識のための、最初の本格的なオープンソースビデオデータセットであるBakvaを提供している。
論文 参考訳(メタデータ) (2024-10-11T09:59:48Z) - SCOPE: Sign Language Contextual Processing with Embedding from LLMs [49.5629738637893]
世界中の約7000万人の聴覚障害者が使用する手話は、視覚的および文脈的な情報を伝える視覚言語である。
視覚に基づく手話認識(SLR)と翻訳(SLT)の現在の手法は、限られたデータセットの多様性と文脈に関連のある情報の無視により、対話シーンに苦慮している。
SCOPEは、コンテキスト認識型ビジョンベースSLRおよびSLTフレームワークである。
論文 参考訳(メタデータ) (2024-09-02T08:56:12Z) - BAUST Lipi: A BdSL Dataset with Deep Learning Based Bangla Sign Language Recognition [0.5497663232622964]
聴覚障害者コミュニティとのコミュニケーションを強化するために、手話の研究が盛んである。
重要な障壁の1つは、包括的なBangla手話データセットがないことである。
18,000個の画像からなる新しいBdSLデータセットを導入し,各画像のサイズを224×224ピクセルとする。
我々は、複数の畳み込み層、アクティベーション機能、ドロップアウト技術、LSTM層を統合するハイブリッド畳み込みニューラルネットワーク(CNN)モデルを考案した。
論文 参考訳(メタデータ) (2024-08-20T03:35:42Z) - SignSpeak: Open-Source Time Series Classification for ASL Translation [0.12499537119440243]
本稿では,低コストでリアルタイムなASL-to-Speech翻訳グローブと手話パターンの学習データセットを提案する。
このデータセットを、LSTM、GRU、Transformersなどの教師付き学習モデルでベンチマークし、最高のモデルが92%の精度を達成した。
当社のオープンソースデータセット、モデル、グローブデザインは、コスト効率を維持しつつ、正確かつ効率的なASLトランスレータを提供する。
論文 参考訳(メタデータ) (2024-06-27T17:58:54Z) - Connecting the Dots: Leveraging Spatio-Temporal Graph Neural Networks
for Accurate Bangla Sign Language Recognition [2.624902795082451]
我々は,40語以上の611ビデオからなる単語レベルBandgla Sign Languageデータセット(BdSL40)を提案する。
これは単語レベルのBdSL認識に関する最初の研究であり、データセットはBangla Sign Language Dictionary (1997)を用いてインド手話(ISL)から転写された。
この研究は、BdSL、West Bengal Sign Language、ISL間の重要な語彙的および意味的類似点と、文献におけるBdSLのワードレベルデータセットの欠如を強調した。
論文 参考訳(メタデータ) (2024-01-22T18:52:51Z) - ASL Citizen: A Community-Sourced Dataset for Advancing Isolated Sign
Language Recognition [6.296362537531586]
サイン言語は、全世界で約7000万人のD/deaf人が一次言語として使っている。
この問題に対処するため、最初のクラウドソースで分離された手話認識データセットであるASL Citizenをリリースしました。
我々は,このデータセットを,ユーザがWebカメラにサインを表示させて辞書から一致するサインを検索する,American Sign Language (ASL) のための手話辞書検索に使用することを提案する。
論文 参考訳(メタデータ) (2023-04-12T15:52:53Z) - ASL-Homework-RGBD Dataset: An annotated dataset of 45 fluent and
non-fluent signers performing American Sign Language homeworks [32.3809065803553]
このデータセットには、American Sign Language (ASL) を使用した、流動的で非流動的なシグナのビデオが含まれている。
受講生は45名、受講生は45名、受講生は45名であった。
データは、文法的特徴や非マニュアルマーカーを含む署名のいくつかの側面を特定するために注釈付けされている。
論文 参考訳(メタデータ) (2022-07-08T17:18:49Z) - BBC-Oxford British Sign Language Dataset [64.32108826673183]
我々は,British Sign Language (BSL) の大規模ビデオコレクションである BBC-Oxford British Sign Language (BOBSL) データセットを紹介する。
データセットのモチベーションと統計、利用可能なアノテーションについて説明する。
我々は、手話認識、手話アライメント、手話翻訳のタスクのベースラインを提供する実験を行う。
論文 参考訳(メタデータ) (2021-11-05T17:35:58Z) - LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。
最近の研究では、音声からSSLも調べた。
音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:27:09Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。