論文の概要: BdSL36: A Dataset for Bangladeshi Sign Letters Recognition
- arxiv url: http://arxiv.org/abs/2110.00869v1
- Date: Sat, 2 Oct 2021 19:52:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 09:27:23.470420
- Title: BdSL36: A Dataset for Bangladeshi Sign Letters Recognition
- Title(参考訳): BdSL36:バングラデシュの署名文字認識のためのデータセット
- Authors: Oishee Bintey Hoque, Mohammad Imrul Jubair, Al-Farabi Akash, Saiful
Islam
- Abstract要約: バングラデシュ手話(バングラデシュ語:BdSL)はバングラデシュの聴覚障害者のためのコミュニケーション手段である。
本稿では,BdSL36というデータセットについて述べる。
さらに,オブジェクト検出アルゴリズムの可能性を利用するため,約4万枚の画像にバウンディングボックスを付加したアノテートを行った。
- 参考スコア(独自算出の注目度): 4.010701467679244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bangladeshi Sign Language (BdSL) is a commonly used medium of communication
for the hearing-impaired people in Bangladesh. A real-time BdSL interpreter
with no controlled lab environment has a broad social impact and an interesting
avenue of research as well. Also, it is a challenging task due to the variation
in different subjects (age, gender, color, etc.), complex features, and
similarities of signs and clustered backgrounds. However, the existing dataset
for BdSL classification task is mainly built in a lab friendly setup which
limits the application of powerful deep learning technology. In this paper, we
introduce a dataset named BdSL36 which incorporates background augmentation to
make the dataset versatile and contains over four million images belonging to
36 categories. Besides, we annotate about 40,000 images with bounding boxes to
utilize the potentiality of object detection algorithms. Furthermore, several
intensive experiments are performed to establish the baseline performance of
our BdSL36. Moreover, we employ beta testing of our classifiers at the user
level to justify the possibilities of real-world application with this dataset.
We believe our BdSL36 will expedite future research on practical sign letter
classification. We make the datasets and all the pre-trained models available
for further researcher.
- Abstract(参考訳): バングラデシュ手話(バングラデシュ語:BdSL)はバングラデシュの聴覚障害者のためのコミュニケーション手段である。
制御された実験室環境を持たないリアルタイムBdSLインタプリタは、幅広い社会的影響と興味深い研究経路を持っている。
また、異なる主題(年齢、性別、色など)の変化、複雑な特徴、記号とクラスタ化された背景の類似性など、難しい課題である。
しかし、既存のBdSL分類タスクのデータセットは、主に強力なディープラーニング技術の応用を制限するラボフレンドリーな設定で構築されている。
本稿では,BdSL36というデータセットを紹介する。背景拡張を取り入れたデータセットを汎用化し,36のカテゴリに属する400万以上の画像を含む。
さらに,約4万枚の画像にバウンディングボックスを付加し,オブジェクト検出アルゴリズムの可能性を利用する。
さらに,BdSL36のベースライン性能を確立するために,いくつかの実験を行った。
さらに、ユーザレベルでの分類器のベータテストを採用し、このデータセットで現実世界のアプリケーションの可能性を明確にします。
我々はBdSL36が今後,実用的な手書き文字分類の研究を迅速化すると考えている。
データセットとトレーニング済みのすべてのモデルを、さらなる研究者に提供しています。
関連論文リスト
- BAUST Lipi: A BdSL Dataset with Deep Learning Based Bangla Sign Language Recognition [0.5497663232622964]
聴覚障害者コミュニティとのコミュニケーションを強化するために、手話の研究が盛んである。
重要な障壁の1つは、包括的なBangla手話データセットがないことである。
18,000個の画像からなる新しいBdSLデータセットを導入し,各画像のサイズを224×224ピクセルとする。
我々は、複数の畳み込み層、アクティベーション機能、ドロップアウト技術、LSTM層を統合するハイブリッド畳み込みニューラルネットワーク(CNN)モデルを考案した。
論文 参考訳(メタデータ) (2024-08-20T03:35:42Z) - BdSLW60: A Word-Level Bangla Sign Language Dataset [3.8631510994883254]
我々は、制約のない自然な設定で、BdSLW60という名前の包括的BdSLワードレベルデータセットを作成します。
データセットには60のBangla手話が含まれており、18人の手話専門家が手話専門家の監督の下で提供した9307のビデオトライアルがかなりの規模で提供されている。
本稿では,SVM(Support Vector Machine)を用いたBdSLW60データセットのベンチマーク結果について報告する。
論文 参考訳(メタデータ) (2024-02-13T18:02:58Z) - Connecting the Dots: Leveraging Spatio-Temporal Graph Neural Networks
for Accurate Bangla Sign Language Recognition [2.624902795082451]
我々は,40語以上の611ビデオからなる単語レベルBandgla Sign Languageデータセット(BdSL40)を提案する。
これは単語レベルのBdSL認識に関する最初の研究であり、データセットはBangla Sign Language Dictionary (1997)を用いてインド手話(ISL)から転写された。
この研究は、BdSL、West Bengal Sign Language、ISL間の重要な語彙的および意味的類似点と、文献におけるBdSLのワードレベルデータセットの欠如を強調した。
論文 参考訳(メタデータ) (2024-01-22T18:52:51Z) - Towards Generic Semi-Supervised Framework for Volumetric Medical Image
Segmentation [19.09640071505051]
UDAやSemiDGといった設定を扱う汎用SSLフレームワークを開発した。
提案するフレームワークを,SSL,クラス不均衡SSL,UDA,セミDGの4つのベンチマークデータセット上で評価した。
その結果,4つの設定にまたがる最先端の手法と比較して,顕著な改善が見られた。
論文 参考訳(メタデータ) (2023-10-17T14:58:18Z) - Joint Prediction and Denoising for Large-scale Multilingual
Self-supervised Learning [69.77973092264338]
我々は、より強力な技術がより効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示します。
我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。
このモデルではXLS-Rの性能を94%維持でき、データの3%しか保持できない。
論文 参考訳(メタデータ) (2023-09-26T23:55:57Z) - A Survey on Self-supervised Learning: Algorithms, Applications, and Future Trends [82.64268080902742]
自己教師付き学習(SSL)は、ラベル付きラベルを頼らずにラベル付きデータから識別的特徴を学習することを目的としている。
SSLは最近大きな注目を集め、多くの関連するアルゴリズムの開発に繋がった。
本稿では,アルゴリズム的側面,アプリケーション領域,3つの重要なトレンド,オープンな研究課題を含む,多様なSSL手法のレビューを行う。
論文 参考訳(メタデータ) (2023-01-13T14:41:05Z) - Towards Realistic Semi-Supervised Learning [73.59557447798134]
オープンワールド環境でSSLに取り組み、未知のクラスと未知のクラスを同時に分類する新しい手法を提案する。
我々のアプローチは、既存の最先端の7つのデータセットよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-07-05T19:04:43Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Sound and Visual Representation Learning with Multiple Pretraining Tasks [104.11800812671953]
自己管理タスク(SSL)は、データと異なる特徴を明らかにする。
この作業は、下流のすべてのタスクをうまく一般化する複数のSSLタスク(Multi-SSL)を組み合わせることを目的としている。
音響表現の実験では、SSLタスクのインクリメンタルラーニング(IL)によるマルチSSLが、単一のSSLタスクモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-01-04T09:09:38Z) - BBC-Oxford British Sign Language Dataset [64.32108826673183]
我々は,British Sign Language (BSL) の大規模ビデオコレクションである BBC-Oxford British Sign Language (BOBSL) データセットを紹介する。
データセットのモチベーションと統計、利用可能なアノテーションについて説明する。
我々は、手話認識、手話アライメント、手話翻訳のタスクのベースラインを提供する実験を行う。
論文 参考訳(メタデータ) (2021-11-05T17:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。