論文の概要: Revolutionizing Communication with Deep Learning and XAI for Enhanced Arabic Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2501.08169v1
- Date: Tue, 14 Jan 2025 14:49:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:27:58.854422
- Title: Revolutionizing Communication with Deep Learning and XAI for Enhanced Arabic Sign Language Recognition
- Title(参考訳): アラビア語手話認識のための深層学習とXAIによるコミュニケーションの革新
- Authors: Mazen Balat, Rewaa Awaad, Ahmed B. Zaky, Salah A. Aly,
- Abstract要約: 本研究では、MobileNetV3、ResNet50、EfficientNet-B2といった最先端のディープラーニングモデルを用いて、アラビア手話(ArSL)を認識するための統合的なアプローチを提案する。
提案システムは、認識精度の新たなベンチマークを設定するだけでなく、解釈可能性も重視し、医療、教育、包括的コミュニケーション技術への応用に適している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study introduces an integrated approach to recognizing Arabic Sign Language (ArSL) using state-of-the-art deep learning models such as MobileNetV3, ResNet50, and EfficientNet-B2. These models are further enhanced by explainable AI (XAI) techniques to boost interpretability. The ArSL2018 and RGB Arabic Alphabets Sign Language (AASL) datasets are employed, with EfficientNet-B2 achieving peak accuracies of 99.48\% and 98.99\%, respectively. Key innovations include sophisticated data augmentation methods to mitigate class imbalance, implementation of stratified 5-fold cross-validation for better generalization, and the use of Grad-CAM for clear model decision transparency. The proposed system not only sets new benchmarks in recognition accuracy but also emphasizes interpretability, making it suitable for applications in healthcare, education, and inclusive communication technologies.
- Abstract(参考訳): 本研究では、MobileNetV3、ResNet50、EfficientNet-B2といった最先端のディープラーニングモデルを用いて、アラビア手話(ArSL)を認識するための統合的なアプローチを提案する。
これらのモデルは、解釈可能性を高めるための説明可能なAI(XAI)技術によってさらに強化されている。
ArSL2018とRGB Arabic Alphabets Sign Language (AASL)データセットを使用し、EfficientNet-B2はそれぞれ99.48\%と98.99\%のピーク精度を達成した。
主な革新としては、クラス不均衡を軽減するための高度なデータ拡張手法、より一般化するための階層化された5倍のクロスバリデーションの実装、明確なモデル決定の透明性のためのGrad-CAMの使用がある。
提案システムは、認識精度の新たなベンチマークを設定するだけでなく、解釈可能性も重視し、医療、教育、包括的コミュニケーション技術への応用に適している。
関連論文リスト
- Advanced Arabic Alphabet Sign Language Recognition Using Transfer Learning and Transformer Models [0.0]
本稿では、トランスファー学習とトランスフォーマーモデルを組み合わせたディープラーニング手法を用いて、アラビア語 Alphabet Sign Language 認識手法を提案する。
本稿では,ArSL2018 と AASL の2つの公開データセット上で,異なる変種の性能について検討する。
実験の結果、提案手法は、ArSL2018とAASLでそれぞれ99.6%、99.43%の精度で高い精度を得られることが示されている。
論文 参考訳(メタデータ) (2024-10-01T13:39:26Z) - Deep Neural Network-Based Sign Language Recognition: A Comprehensive Approach Using Transfer Learning with Explainability [0.0]
我々は、ディープニューラルネットワークを使って手話認識を完全に自動化する新しいソリューションを提案する。
この手法は、高度な前処理方法論を統合し、全体的なパフォーマンスを最適化する。
SHAP (SHapley Additive exPlanations) 法を用いて, 情報的明瞭度の提供能力を評価した。
論文 参考訳(メタデータ) (2024-09-11T17:17:44Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - Arabic Handwritten Text for Person Biometric Identification: A Deep Learning Approach [0.9910347287556193]
本研究は,人物の生体認証のためのアラビア手書きテキストを,ディープラーニングモデルがどの程度認識できるかを徹底的に検討する。
広く認識されている3つのデータセットを使用して、ResNet50、MobileNetV2、EfficientNetB7の3つの高度なアーキテクチャを比較している。
その結果、EfficientNetB7は、AHAWP、Khatt、LAMIS-MSHDデータセットで98.57%、99.15%、99.79%のアキュラシーを達成した。
論文 参考訳(メタデータ) (2024-06-01T11:43:00Z) - Sign Language Recognition based on YOLOv5 Algorithm for the Telugu Sign Language [0.0]
本稿では、YOLOv5オブジェクト識別フレームワークを用いて、TSL内のジェスチャーを識別する新しい手法を提案する。
YOLOv5を使ってジェスチャーを認識して分類するディープラーニングモデルが開発された。
各種のTSLジェスチャーおよび設定に対するシステムの安定性と一般化性は厳密なテストと検証によって評価された。
論文 参考訳(メタデータ) (2024-04-24T18:39:27Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Multilingual Speech Recognition using Knowledge Transfer across Learning
Processes [15.927513451432946]
実験結果から,WER全体の3.55%の相対的な減少が得られた。
LEAPとSSLの組み合わせにより、言語IDを使用する場合、WER全体の3.51%が相対的に減少する。
論文 参考訳(メタデータ) (2021-10-15T07:50:27Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。