論文の概要: Bangla sign language recognition using concatenated BdSL network
- arxiv url: http://arxiv.org/abs/2107.11818v1
- Date: Sun, 25 Jul 2021 14:47:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 00:44:03.809096
- Title: Bangla sign language recognition using concatenated BdSL network
- Title(参考訳): 連結BdSLネットワークを用いたバングラ手話認識
- Authors: Thasin Abedin, Khondokar S. S. Prottoy, Ayana Moshruba and Safayat Bin
Hakim
- Abstract要約: CNNに基づく画像ネットワークとポーズ推定ネットワークで構成される「連結BdSLネットワーク」を提案する。
テストセットにおける新しい手法により, 91.51%のスコアが得られ, 追加のポーズ推定ネットワークの有効性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign language is the only medium of communication for the hearing impaired
and the deaf and dumb community. Communication with the general mass is thus
always a challenge for this minority group. Especially in Bangla sign language
(BdSL), there are 38 alphabets with some having nearly identical symbols. As a
result, in BdSL recognition, the posture of hand is an important factor in
addition to visual features extracted from traditional Convolutional Neural
Network (CNN). In this paper, a novel architecture "Concatenated BdSL Network"
is proposed which consists of a CNN based image network and a pose estimation
network. While the image network gets the visual features, the relative
positions of hand keypoints are taken by the pose estimation network to obtain
the additional features to deal with the complexity of the BdSL symbols. A
score of 91.51% was achieved by this novel approach in test set and the
effectiveness of the additional pose estimation network is suggested by the
experimental results.
- Abstract(参考訳): 手話は聴覚障害者と聴覚障害者と無口なコミュニティにとって唯一のコミュニケーション手段である。
したがって、一般大衆とのコミュニケーションは、この少数派グループにとって常に困難である。
特にバングラ手話(BdSL)では、38のアルファベットがあり、いくつかはほぼ同じ記号を持つ。
その結果、BdSL認識においては、手の位置は従来の畳み込みニューラルネットワーク(CNN)から抽出された視覚的特徴に加えて重要な要素である。
本稿では,CNNに基づく画像ネットワークとポーズ推定ネットワークを組み合わせた,新しいアーキテクチャ"Concatenated BdSL Network"を提案する。
画像ネットワークは視覚的特徴を得る一方、ポーズ推定ネットワークによって手指キーポイントの相対位置を捉え、BdSLシンボルの複雑さに対処する付加的な特徴を得る。
実験結果から, テストセットにおける新たなアプローチにより91.51%のスコアが得られ, 追加ポーズ推定ネットワークの有効性が示唆された。
関連論文リスト
- BAUST Lipi: A BdSL Dataset with Deep Learning Based Bangla Sign Language Recognition [0.5497663232622964]
聴覚障害者コミュニティとのコミュニケーションを強化するために、手話の研究が盛んである。
重要な障壁の1つは、包括的なBangla手話データセットがないことである。
18,000個の画像からなる新しいBdSLデータセットを導入し,各画像のサイズを224×224ピクセルとする。
我々は、複数の畳み込み層、アクティベーション機能、ドロップアウト技術、LSTM層を統合するハイブリッド畳み込みニューラルネットワーク(CNN)モデルを考案した。
論文 参考訳(メタデータ) (2024-08-20T03:35:42Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - Enhancing Brazilian Sign Language Recognition through Skeleton Image Representation [2.6311088262657907]
本研究は、身体、手、顔のランドマークを時間を通して抽出し、2次元画像として符号化する、分離手話認識(ISLR)アプローチを提案する。
ブラジル手話(LIBRAS)における2つの広く認識されているデータセットの性能指標から,本手法が最先端の指標を上回ったことを示す。
より正確であることに加えて、より単純なネットワークアーキテクチャに依存し、入力としてのみRGBデータに依存するため、我々の手法はより時間効率が高く、訓練が容易である。
論文 参考訳(メタデータ) (2024-04-29T23:21:17Z) - Neural Sign Actors: A diffusion model for 3D sign language production from text [51.81647203840081]
手話 (SL) は難聴者および難聴者コミュニティの主要なコミュニケーション手段である。
この研究は、現実的なニューラルサインアバターに向けて重要な一歩を踏み出し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - Exploring Geometry of Blind Spots in Vision Models [56.47644447201878]
CNNやトランスフォーマーのような視覚モデルにおける過敏性の現象について検討する。
本稿では,入力空間に対する信頼度の高い領域を反復的に探索するレベルセットトラバースアルゴリズムを提案する。
モデルが高い信頼度を維持するこれらの連結高次元領域の範囲を推定する。
論文 参考訳(メタデータ) (2023-10-30T18:00:33Z) - Live American Sign Language Letter Classification with Convolutional
Neural Networks [4.920817773181234]
このプロジェクトは、特にライブビデオフィードの範囲内で、画像中のASL文字を認識できるニューラルネットワークの構築を中心にしている。
畳み込みネットワークとVGG16転送学習アプローチが異なるバックグラウンド設定で一般化できなかった場合、最初のテスト結果は期待に届かなかった。
その後、トレーニング済みの手関節検出モデルが採用され、生成された関節位置が完全に接続されたニューラルネットワークに入力される。
論文 参考訳(メタデータ) (2023-05-26T18:29:33Z) - Image-based Indian Sign Language Recognition: A Practical Review using
Deep Neural Networks [0.0]
このモデルは、手話をテキストに変換するリアルタイムな単語レベル手話認識システムを開発することを目的としている。
この分析のために、ユーザはWebカメラを使って手の動きの写真を撮らなければならない。
我々のモデルは畳み込みニューラルネットワーク(CNN)を用いて訓練され、画像の認識に使用される。
論文 参考訳(メタデータ) (2023-04-28T09:27:04Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Word-level Sign Language Recognition with Multi-stream Neural Networks Focusing on Local Regions and Skeletal Information [7.667316027377616]
単語レベル手話認識(WSLR)は,言語障害のある人と聞き取れる人のコミュニケーション障壁を克服することが期待されているため,注目されている。
動作認識のために設計された手法は最先端の精度を実現した。
本稿では,WSLR問題に特に有用な情報を考慮した新しいWSLR手法を提案する。
論文 参考訳(メタデータ) (2021-06-30T11:30:06Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。