論文の概要: BDSL 49: A Comprehensive Dataset of Bangla Sign Language
- arxiv url: http://arxiv.org/abs/2208.06827v1
- Date: Sun, 14 Aug 2022 10:54:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 13:58:37.929423
- Title: BDSL 49: A Comprehensive Dataset of Bangla Sign Language
- Title(参考訳): bdsl 49: bangla sign languageの包括的なデータセット
- Authors: Ayman Hasib, Saqib Sizan Khan, Jannatul Ferdous Eva, Mst. Nipa Khatun,
Ashraful Haque, Nishat Shahrin, Rashik Rahman, Hasan Murad, Md. Rajibul
Islam, Molla Rashied Hussein
- Abstract要約: データセットは、Banglaハンドサインイメージに関するものです。
B49は29,490の画像と49のラベルからなるデータセットである。
異なる背景と外観を持つ14人の個人の画像が、データ収集中に記録されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Language is a method by which individuals express their thoughts. Each
language has its own set of alphabetic and numeric characters. People can
communicate with one another through either oral or written communication.
However, each language has a sign language counterpart. Individuals who are
deaf and/or mute communicate through sign language. The Bangla language also
has a sign language, which is called BDSL. The dataset is about Bangla hand
sign images. The collection contains 49 individual Bangla alphabet images in
sign language. BDSL49 is a dataset that consists of 29,490 images with 49
labels. Images of 14 different adult individuals, each with a distinct
background and appearance, have been recorded during data collection. Several
strategies have been used to eliminate noise from datasets during preparation.
This dataset is available to researchers for free. They can develop automated
systems using machine learning, computer vision, and deep learning techniques.
In addition, two models were used in this dataset. The first is for detection,
while the second is for recognition.
- Abstract(参考訳): 言語は個人が自分の考えを表現する方法である。
それぞれの言語には独自のアルファベットと数字の文字がある。
人々は口頭または書面のコミュニケーションを通じて互いにコミュニケーションすることができる。
しかし、それぞれの言語には手話がある。
聴覚障害やミュート状態の人は手話でコミュニケーションをとる。
バングラ語はまた、BDSLと呼ばれる手話を持っている。
データセットは、Banglaハンドサインイメージに関するものです。
このコレクションは、手話で49個のBanglaアルファベット画像を含んでいる。
BDSL49は29,490の画像と49のラベルからなるデータセットである。
14人の異なる成人のイメージは、それぞれ異なる背景と外観を持ち、データ収集中に記録されている。
準備中にデータセットからノイズを取り除くために、いくつかの戦略が使われている。
このデータセットは研究者が無料で利用できる。
機械学習、コンピュータビジョン、ディープラーニング技術を使って自動化システムを開発することができる。
さらに、このデータセットには2つのモデルが使用された。
1つは検出用、もう1つは認識用である。
関連論文リスト
- LSA64: An Argentinian Sign Language Dataset [42.27617228521691]
本稿では,アルゼンチン手話(LSA)から64の記号のデータセットを提案する。
LSA64と呼ばれるこのデータセットには、10人の被験者が記録した64種類のLAA符号の3200の動画が含まれている。
また、前処理したデータセットも提示し、そこから信号の移動、位置、手形に関する統計を計算した。
論文 参考訳(メタデータ) (2023-10-26T14:37:01Z) - Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文 参考訳(メタデータ) (2023-05-23T21:00:42Z) - ASL Citizen: A Community-Sourced Dataset for Advancing Isolated Sign
Language Recognition [6.296362537531586]
サイン言語は、全世界で約7000万人のD/deaf人が一次言語として使っている。
この問題に対処するため、最初のクラウドソースで分離された手話認識データセットであるASL Citizenをリリースしました。
我々は,このデータセットを,ユーザがWebカメラにサインを表示させて辞書から一致するサインを検索する,American Sign Language (ASL) のための手話辞書検索に使用することを提案する。
論文 参考訳(メタデータ) (2023-04-12T15:52:53Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Word level Bangla Sign Language Dataset for Continuous BSL Recognition [0.0]
我々は,手話を通してコミュニケーションする個人のためのポーズ情報の時間的ダイナミクスを捉える,注目に基づくBi-GRUモデルを開発した。
モデルの精度は85.64%と報告されている。
論文 参考訳(メタデータ) (2023-02-22T18:55:54Z) - Design of Arabic Sign Language Recognition Model [0.0]
このモデルはArASL 2018でテストされ、40の署名者から集められた32のアルファベット記号に対して54,000の画像で構成されている。
今後の開発は、アラビア語の手話からアラビア語のテキストに変換するモデルになる予定だ。
論文 参考訳(メタデータ) (2023-01-06T19:19:25Z) - LSA-T: The first continuous Argentinian Sign Language dataset for Sign
Language Translation [52.87578398308052]
手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。
本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。
このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-11-14T14:46:44Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Sign Language Recognition System using TensorFlow Object Detection API [0.0]
本稿では,Webカメラを用いてインド手話データセットを作成し,次に移動学習を用いて,リアルタイム手話認識システムを構築するためのモデルを訓練する手法を提案する。
システムは、限られたサイズのデータセットであっても、良好な精度を達成する。
論文 参考訳(メタデータ) (2022-01-05T07:13:03Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。