論文の概要: Design of Arabic Sign Language Recognition Model
- arxiv url: http://arxiv.org/abs/2301.02693v1
- Date: Fri, 6 Jan 2023 19:19:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 16:51:37.977008
- Title: Design of Arabic Sign Language Recognition Model
- Title(参考訳): アラビア語手話認識モデルの設計
- Authors: Muhammad Al-Barham, Ahmad Jamal, Musa Al-Yaman
- Abstract要約: このモデルはArASL 2018でテストされ、40の署名者から集められた32のアルファベット記号に対して54,000の画像で構成されている。
今後の開発は、アラビア語の手話からアラビア語のテキストに変換するモデルになる予定だ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deaf people are using sign language for communication, and it is a
combination of gestures, movements, postures, and facial expressions that
correspond to alphabets and words in spoken languages. The proposed Arabic sign
language recognition model helps deaf and hard hearing people communicate
effectively with ordinary people. The recognition has four stages of converting
the alphabet into letters as follows: Image Loading stage, which loads the
images of Arabic sign language alphabets that were used later to train and test
the model, a pre-processing stage which applies image processing techniques
such as normalization, Image augmentation, resizing, and filtering to extract
the features which are necessary to accomplish the recognition perfectly, a
training stage which is achieved by deep learning techniques like CNN, a
testing stage which demonstrates how effectively the model performs for images
did not see it before, and the model was built and tested mainly using PyTorch
library. The model is tested on ArASL2018, consisting of 54,000 images for 32
alphabet signs gathered from 40 signers, and the dataset has two sets: training
dataset and testing dataset. We had to ensure that the system is reliable in
terms of accuracy, time, and flexibility of use explained in detail in this
report. Finally, the future work will be a model that converts Arabic sign
language into Arabic text.
- Abstract(参考訳): 聴覚障害者は手話を使ってコミュニケーションしており、ジェスチャー、動き、姿勢、および話し言葉のアルファベットや単語に対応する表情の組み合わせである。
提案するアラビア手話認識モデルは,難聴者や難聴者が一般人と効果的にコミュニケーションするのに役立つ。
The recognition has four stages of converting the alphabet into letters as follows: Image Loading stage, which loads the images of Arabic sign language alphabets that were used later to train and test the model, a pre-processing stage which applies image processing techniques such as normalization, Image augmentation, resizing, and filtering to extract the features which are necessary to accomplish the recognition perfectly, a training stage which is achieved by deep learning techniques like CNN, a testing stage which demonstrates how effectively the model performs for images did not see it before, and the model was built and tested mainly using PyTorch library.
モデルはArASL2018でテストされ、40の署名者から収集された32のアルファベット記号に対して54,000の画像で構成され、データセットにはトレーニングデータセットとテストデータセットの2つのセットがある。
本報告で詳しく説明するには,システムの正確性,時間,柔軟性の観点から信頼性を確保する必要があった。
最後に、今後の研究はアラビア語の手話からアラビア語のテキストに変換するモデルになる。
関連論文リスト
- Bukva: Russian Sign Language Alphabet [75.42794328290088]
本稿では,ロシア手話(RSL)ダクティルとしても知られる,ロシア語の指先文字の認識について検討する。
ダクティル (Dactyl) は手の動きが書かれた言語の個々の文字を表す手話の構成要素である。
当社は、RSLダクチル認識のための、最初の本格的なオープンソースビデオデータセットであるBakvaを提供している。
論文 参考訳(メタデータ) (2024-10-11T09:59:48Z) - Advanced Arabic Alphabet Sign Language Recognition Using Transfer Learning and Transformer Models [0.0]
本稿では、トランスファー学習とトランスフォーマーモデルを組み合わせたディープラーニング手法を用いて、アラビア語 Alphabet Sign Language 認識手法を提案する。
本稿では,ArSL2018 と AASL の2つの公開データセット上で,異なる変種の性能について検討する。
実験の結果、提案手法は、ArSL2018とAASLでそれぞれ99.6%、99.43%の精度で高い精度を得られることが示されている。
論文 参考訳(メタデータ) (2024-10-01T13:39:26Z) - Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Fine-tuning of sign language recognition models: a technical report [0.0]
我々は、他の手話からのデータセットの微調整が、手話認識の品質向上に役立つか、そしてGPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてる。
モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードを提供する。
論文 参考訳(メタデータ) (2023-02-15T14:36:18Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - OpenHands: Making Sign Language Recognition Accessible with Pose-based
Pretrained Models across Languages [2.625144209319538]
OpenHandsは、低リソース言語のためのNLPコミュニティから4つの重要なアイデアを取り入れ、それらを単語レベルの認識のための手話言語に適用するライブラリである。
まず,事前学習モデルから抽出したポーズをデータの標準モダリティとして用いて,トレーニング時間を短縮し,効率的な推論を可能にする。
第2に、すべての6言語で4つのポーズベースの独立した手話認識モデルのチェックポイントをトレーニングし、リリースします。
第3に,ラベル付きデータの欠如に対処するため,ラベル付きデータに基づく自己教師付き事前学習を提案する。
論文 参考訳(メタデータ) (2021-10-12T10:33:02Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - AraELECTRA: Pre-Training Text Discriminators for Arabic Language
Understanding [0.0]
我々はアラビア語表現モデルを開発し、AraELECTRAと名付けた。
我々のモデルは、大きなアラビア文字コーパス上の代用トークン検出目標を用いて事前訓練されている。
AraELECTRAは、現在最先端のアラビア語表現モデルよりも優れており、同じ事前学習データと、より小さいモデルサイズが与えられている。
論文 参考訳(メタデータ) (2020-12-31T09:35:39Z) - A Hybrid Deep Learning Model for Arabic Text Recognition [2.064612766965483]
本稿では,複数のフォントタイプを用いて印刷されたアラビア文字を認識可能なモデルを提案する。
提案モデルでは,文字セグメンテーションを必要とせずにアラビア文字を認識可能なハイブリッドDLネットワークを採用している。
このモデルは文字と単語の認識において良好な結果が得られ、また、未知のデータでテストされた文字の認識においても有望な結果が得られた。
論文 参考訳(メタデータ) (2020-09-04T02:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。