論文の概要: Deep Neural Network-Based Sign Language Recognition: A Comprehensive Approach Using Transfer Learning with Explainability
- arxiv url: http://arxiv.org/abs/2409.07426v1
- Date: Wed, 11 Sep 2024 17:17:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 13:26:57.792923
- Title: Deep Neural Network-Based Sign Language Recognition: A Comprehensive Approach Using Transfer Learning with Explainability
- Title(参考訳): ディープニューラルネットワークに基づく手話認識:説明可能性を持つ伝達学習を用いた包括的アプローチ
- Authors: A. E. M Ridwan, Mushfiqul Islam Chowdhury, Mekhala Mariam Mary, Md Tahmid Chowdhury Abir,
- Abstract要約: 我々は、ディープニューラルネットワークを使って手話認識を完全に自動化する新しいソリューションを提案する。
この手法は、高度な前処理方法論を統合し、全体的なパフォーマンスを最適化する。
SHAP (SHapley Additive exPlanations) 法を用いて, 情報的明瞭度の提供能力を評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To promote inclusion and ensuring effective communication for those who rely on sign language as their main form of communication, sign language recognition (SLR) is crucial. Sign language recognition (SLR) seamlessly incorporates with diverse technology, enhancing accessibility for the deaf community by facilitating their use of digital platforms, video calls, and communication devices. To effectively solve this problem, we suggest a novel solution that uses a deep neural network to fully automate sign language recognition. This methodology integrates sophisticated preprocessing methodologies to optimise the overall performance. The architectures resnet, inception, xception, and vgg are utilised to selectively categorise images of sign language. We prepared a DNN architecture and merged it with the pre-processing architectures. In the post-processing phase, we utilised the SHAP deep explainer, which is based on cooperative game theory, to quantify the influence of specific features on the output of a machine learning model. Bhutanese-Sign-Language (BSL) dataset was used for training and testing the suggested technique. While training on Bhutanese-Sign-Language (BSL) dataset, overall ResNet50 with the DNN model performed better accuracy which is 98.90%. Our model's ability to provide informational clarity was assessed using the SHAP (SHapley Additive exPlanations) method. In part to its considerable robustness and reliability, the proposed methodological approach can be used to develop a fully automated system for sign language recognition.
- Abstract(参考訳): 主要なコミュニケーション形態として手話に依存する人々への包摂と効果的なコミュニケーションを促進するためには,手話認識(SLR)が不可欠である。
サイン言語認識(SLR)は多様な技術とシームレスに組み込まれ、デジタルプラットフォーム、ビデオ通話、通信機器の使用を容易にすることで、聴覚障害者コミュニティのアクセシビリティを高める。
この問題を効果的に解決するために、ディープニューラルネットワークを用いて手話認識を完全に自動化する新しいソリューションを提案する。
この手法は、高度な前処理方法論を統合し、全体的なパフォーマンスを最適化する。
アーキテクチャのresnet、inception、xception、vggは手話の画像を選択的に分類するために利用される。
我々はDNNアーキテクチャを作成し、それを前処理アーキテクチャとマージした。
後処理フェーズでは、協調ゲーム理論に基づくSHAPディープ説明器を用いて、特定の特徴が機械学習モデルの出力に与える影響を定量化した。
BSL(Bhutanese-Sign-Language)データセットは、提案したテクニックのトレーニングとテストに使用された。
BSL(Bhutanese-Sign-Language)データセットのトレーニング中、DNNモデルによるResNet50全体の精度は98.90%向上した。
SHAP (SHapley Additive exPlanations) 法を用いて, 情報的明瞭度の提供能力を評価した。
その相当な堅牢性と信頼性のために,手話認識のための完全に自動化されたシステムを開発するために提案手法を用いることができる。
関連論文リスト
- Deep Learning and Machine Learning -- Natural Language Processing: From Theory to Application [17.367710635990083]
自然言語処理(NLP)と大規模言語モデル(LLM)の役割に焦点を当てる。
本稿では,データ前処理技術とHugging Faceのようなフレームワークを用いたトランスフォーマーモデルの実装について論じる。
マルチリンガルデータの扱い、バイアスの低減、モデルの堅牢性確保といった課題を強調している。
論文 参考訳(メタデータ) (2024-10-30T09:35:35Z) - CLSP: High-Fidelity Contrastive Language-State Pre-training for Agent State Representation [49.19402798479942]
マルチモーダル学習は 人工知能の 重要な研究領域になっています
知的エージェントにとって、国家は画像、ビデオ、言語といった一般的なモダリティと共に正確な情報を伝達する重要なモダリティである。
本稿では,状態情報を汎用表現に正確にエンコードできる高忠実コントラスト言語-状態事前学習法を提案する。
論文 参考訳(メタデータ) (2024-09-24T07:08:00Z) - Sign language recognition based on deep learning and low-cost handcrafted descriptors [0.0]
単語間のあいまいさを避けるため,ジェスチャ実行においてできるだけ多くの言語パラメータを考慮することが重要である。
選択した技術がリアルであることを保証することが不可欠であり、高価な、侵入的、または低運動量のセンサーを避ける。
低コストなセンサと技術を用いた手話認識システムを提案する。
論文 参考訳(メタデータ) (2024-08-14T00:56:51Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - Enhancing Sign Language Detection through Mediapipe and Convolutional Neural Networks (CNN) [3.192629447369627]
この研究は、ASLデータセットの効率的かつ正確な解釈のためにMediaPipeとCNNを組み合わせる。
ASLデータセットのモデルによって達成される精度は99.12%である。
このシステムは、コミュニケーション、教育、アクセシビリティードメインに応用される。
論文 参考訳(メタデータ) (2024-06-06T04:05:12Z) - Enhancing Brazilian Sign Language Recognition through Skeleton Image Representation [2.6311088262657907]
本研究は、身体、手、顔のランドマークを時間を通して抽出し、2次元画像として符号化する、分離手話認識(ISLR)アプローチを提案する。
ブラジル手話(LIBRAS)における2つの広く認識されているデータセットの性能指標から,本手法が最先端の指標を上回ったことを示す。
より正確であることに加えて、より単純なネットワークアーキテクチャに依存し、入力としてのみRGBデータに依存するため、我々の手法はより時間効率が高く、訓練が容易である。
論文 参考訳(メタデータ) (2024-04-29T23:21:17Z) - Neural Sign Actors: A diffusion model for 3D sign language production from text [51.81647203840081]
手話 (SL) は難聴者および難聴者コミュニティの主要なコミュニケーション手段である。
この研究は、現実的なニューラルサインアバターに向けて重要な一歩を踏み出し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Interpretation of Swedish Sign Language using Convolutional Neural
Networks and Transfer Learning [2.7629216089139934]
我々は、スウェーデン手話(SSL)ハンドアルファベットの記号をコンピュータが解釈できるように、畳み込みニューラルネットワーク(CNN)とトランスファーラーニングを用いている。
我々のモデルは、事前訓練されたInceptionV3ネットワークの実装と、ミニバッチ勾配勾配最適化アルゴリズムの使用から成り立っている。
モデルの最終精度は8人の被験者と9,400人の画像に基づいており、85%である。
論文 参考訳(メタデータ) (2020-10-15T15:34:09Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。