論文の概要: Enhancing Mathematics Learning for Hard-of-Hearing Students Through Real-Time Palestinian Sign Language Recognition: A New Dataset
- arxiv url: http://arxiv.org/abs/2505.17055v1
- Date: Fri, 16 May 2025 19:14:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.505987
- Title: Enhancing Mathematics Learning for Hard-of-Hearing Students Through Real-Time Palestinian Sign Language Recognition: A New Dataset
- Title(参考訳): 実時間パレスチナ手話認識による中学生の算数学習の強化:新しいデータセット
- Authors: Fidaa khandaqji, Huthaifa I. Ashqar, Abdelrahem Atawnih,
- Abstract要約: 本研究は,パレスチナ手話音声認識システムの開発により,難聴者に対する数学教育のアクセシビリティを高めることを目的とする。
最先端のコンピュータビジョン技術を活用するために、VitModelはジェスチャー分類のために微調整された。
このモデルは97.59%の精度を達成し、高い精度と信頼性を持つ数学的記号の認識の有効性を示した。
- 参考スコア(独自算出の注目度): 1.1137087573421256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The study aims to enhance mathematics education accessibility for hard-of-hearing students by developing an accurate Palestinian sign language PSL recognition system using advanced artificial intelligence techniques. Due to the scarcity of digital resources for PSL, a custom dataset comprising 41 mathematical gesture classes was created, and recorded by PSL experts to ensure linguistic accuracy and domain specificity. To leverage state-of-the-art-computer vision techniques, a Vision Transformer ViTModel was fine-tuned for gesture classification. The model achieved an accuracy of 97.59%, demonstrating its effectiveness in recognizing mathematical signs with high precision and reliability. This study highlights the role of deep learning in developing intelligent educational tools that bridge the learning gap for hard-of-hearing students by providing AI-driven interactive solutions to enhance mathematical comprehension. This work represents a significant step toward innovative and inclusive frosting digital integration in specialized learning environments. The dataset is hosted on Hugging Face at https://huggingface.co/datasets/fidaakh/STEM_data.
- Abstract(参考訳): 本研究は,高度人工知能技術を用いたパレスチナ手話PSL認識システムを開発することにより,難聴学生の数学教育アクセシビリティを向上させることを目的とする。
PSLのデジタルリソースが不足していたため、41の数学的ジェスチャークラスからなるカスタムデータセットが作成され、言語的精度とドメイン特異性を保証するためにPSLの専門家によって記録された。
最先端のコンピュータビジョン技術を活用するために、VitModelはジェスチャー分類のために微調整された。
このモデルは97.59%の精度を達成し、高い精度と信頼性を持つ数学的記号の認識の有効性を示した。
本研究は, 難聴者の学習ギャップを埋める知的教育ツール開発におけるディープラーニングの役割を, 数学的理解を高めるためのAI駆動型対話型ソリューションを提供することで強調する。
この研究は、特殊学習環境における革新的で包括的なデジタル統合に向けた重要なステップである。
データセットはHugging Faceのhttps://huggingface.co/datasets/fidaakh/STEM_dataにホストされている。
関連論文リスト
- Deep Learning and Machine Learning -- Natural Language Processing: From Theory to Application [17.367710635990083]
自然言語処理(NLP)と大規模言語モデル(LLM)の役割に焦点を当てる。
本稿では,データ前処理技術とHugging Faceのようなフレームワークを用いたトランスフォーマーモデルの実装について論じる。
マルチリンガルデータの扱い、バイアスの低減、モデルの堅牢性確保といった課題を強調している。
論文 参考訳(メタデータ) (2024-10-30T09:35:35Z) - Deep Neural Network-Based Sign Language Recognition: A Comprehensive Approach Using Transfer Learning with Explainability [0.0]
我々は、ディープニューラルネットワークを使って手話認識を完全に自動化する新しいソリューションを提案する。
この手法は、高度な前処理方法論を統合し、全体的なパフォーマンスを最適化する。
SHAP (SHapley Additive exPlanations) 法を用いて, 情報的明瞭度の提供能力を評価した。
論文 参考訳(メタデータ) (2024-09-11T17:17:44Z) - Sign language recognition based on deep learning and low-cost handcrafted descriptors [0.0]
単語間のあいまいさを避けるため,ジェスチャ実行においてできるだけ多くの言語パラメータを考慮することが重要である。
選択した技術がリアルであることを保証することが不可欠であり、高価な、侵入的、または低運動量のセンサーを避ける。
低コストなセンサと技術を用いた手話認識システムを提案する。
論文 参考訳(メタデータ) (2024-08-14T00:56:51Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - Enhancing Deep Knowledge Tracing via Diffusion Models for Personalized Adaptive Learning [1.2248793682283963]
本研究は、学習記録におけるデータ不足問題に取り組み、パーソナライズされた適応学習(PAL)のためのDKT性能を向上させることを目的とする。
拡散モデルであるTabDDPMを用いて合成教育記録を生成し、DKTの強化のためのトレーニングデータを強化する。
実験結果から,TabDDPMによるAI生成データにより,DKTの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-25T00:23:20Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Synbols: Probing Learning Algorithms with Synthetic Datasets [112.45883250213272]
Synbolsは、低解像度画像にレンダリングされた潜在機能のリッチな構成で、新しいデータセットを高速に生成するツールである。
ツールの高レベルインターフェースは、潜在機能で新しいディストリビューションを高速に生成するための言語を提供する。
Synbolsの汎用性を示すために,各種学習環境における標準学習アルゴリズムの限界と欠陥を識別するために,本手法を用いる。
論文 参考訳(メタデータ) (2020-09-14T13:03:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。