論文の概要: A Transformer-Based Multi-Stream Approach for Isolated Iranian Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2407.09544v1
- Date: Thu, 27 Jun 2024 06:54:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 13:18:53.327507
- Title: A Transformer-Based Multi-Stream Approach for Isolated Iranian Sign Language Recognition
- Title(参考訳): イラン手話認識のためのトランスフォーマーに基づくマルチストリーム手法
- Authors: Ali Ghadami, Alireza Taheri, Ali Meghdari,
- Abstract要約: 本研究の目的は,イラン手話語をトランスフォーマーなどの最新のディープラーニングツールの助けを借りて認識することである。
使用されるデータセットには、大学などの学術環境で頻繁に使用されるイラン手話101語が含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Sign language is an essential means of communication for millions of people around the world and serves as their primary language. However, most communication tools are developed for spoken and written languages which can cause problems and difficulties for the deaf and hard of hearing community. By developing a sign language recognition system, we can bridge this communication gap and enable people who use sign language as their main form of expression to better communicate with people and their surroundings. This recognition system increases the quality of health services, improves public services, and creates equal opportunities for the deaf community. This research aims to recognize Iranian Sign Language words with the help of the latest deep learning tools such as transformers. The dataset used includes 101 Iranian Sign Language words frequently used in academic environments such as universities. The network used is a combination of early fusion and late fusion transformer encoder-based networks optimized with the help of genetic algorithm. The selected features to train this network include hands and lips key points, and the distance and angle between hands extracted from the sign videos. Also, in addition to the training model for the classes, the embedding vectors of words are used as multi-task learning to have smoother and more efficient training. This model was also tested on sentences generated from our word dataset using a windowing technique for sentence translation. Finally, the sign language training software that provides real-time feedback to users with the help of the developed model, which has 90.2% accuracy on test data, was introduced, and in a survey, the effectiveness and efficiency of this type of sign language learning software and the impact of feedback were investigated.
- Abstract(参考訳): 手話は世界中の何百万人もの人々のコミュニケーションに不可欠な手段であり、彼らの第一言語として機能します。
しかし、ほとんどのコミュニケーションツールは、難聴者や難聴者にとって問題や困難を生じさせるような、話し言葉や書き言葉のために開発されている。
手話認識システムを開発することにより、このコミュニケーションギャップを埋めて、手話を使う人をその表現の主形として利用して、人々や周囲とのコミュニケーションをより良くすることが可能になる。
この認識システムは、医療サービスの質を高め、公共サービスを改善し、聴覚障害者コミュニティに平等な機会を生み出す。
本研究の目的は,イラン手話語をトランスフォーマーなどの最新のディープラーニングツールの助けを借りて認識することである。
使用されるデータセットには、大学などの学術環境で頻繁に使用されるイラン手話101語が含まれている。
このネットワークは、遺伝的アルゴリズムの助けを借りて最適化されたアーリーフュージョンとレイトフュージョントランスフォーマーエンコーダベースのネットワークの組み合わせである。
このネットワークを訓練するために選択された機能には、手と唇のキーポイント、手と手の距離と角度が含まれる。
また、授業のトレーニングモデルに加えて、単語の埋め込みベクトルをマルチタスク学習として使用して、よりスムーズで効率的なトレーニングを行う。
また,単語データセットから生成された文に対して,文翻訳のためのウィンドウ化手法を用いて実験を行った。
最後に,テストデータに対する90.2%の精度を持つ開発モデルの助けを借りて,ユーザにリアルタイムフィードバックを提供する手話学習ソフトウェアを紹介し,この手の手話学習ソフトウェアの有効性と効果,およびフィードバックの影響について調査した。
関連論文リスト
- Sign Language Sense Disambiguation [0.0]
本研究は、ドイツ語手話の手話翻訳を強化する手法について、特に同義語に着目して検討する。
本研究では, トランスフォーマーモデルを用いた様々なボディパーツ表現の訓練により, ボディーパーツに焦点を移すことにより, 改善にアプローチする。
その結果、小さなデータセット設定では口にフォーカスすることでパフォーマンスが向上し、手にフォーカスを移すことで、より大きなデータセット設定ではより良い結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-09-13T12:36:52Z) - Deep Neural Network-Based Sign Language Recognition: A Comprehensive Approach Using Transfer Learning with Explainability [0.0]
我々は、ディープニューラルネットワークを使って手話認識を完全に自動化する新しいソリューションを提案する。
この手法は、高度な前処理方法論を統合し、全体的なパフォーマンスを最適化する。
SHAP (SHapley Additive exPlanations) 法を用いて, 情報的明瞭度の提供能力を評価した。
論文 参考訳(メタデータ) (2024-09-11T17:17:44Z) - Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - ChatDev: Communicative Agents for Software Development [84.90400377131962]
ChatDevはチャットを利用したソフトウェア開発フレームワークで、特別なエージェントがコミュニケーション方法についてガイドされる。
これらのエージェントは、統一された言語ベースのコミュニケーションを通じて、設計、コーディング、テストフェーズに積極的に貢献する。
論文 参考訳(メタデータ) (2023-07-16T02:11:34Z) - A Comparative Analysis of Techniques and Algorithms for Recognising Sign
Language [0.9311364633437358]
手話はしばしば、難聴者によるコミュニケーションの第一形態として使われる。
聴覚障害者にソーシャル・プラットフォームを提供するヒューマン・コンピュータ・インタフェース・システムを構築する必要がある。
ほとんどの商用手話翻訳システムはセンサーベースで高価で使いづらい。
論文 参考訳(メタデータ) (2023-05-05T10:52:18Z) - Gesture based Arabic Sign Language Recognition for Impaired People based
on Convolution Neural Network [0.0]
アラビア手話(ArSL)の認識は、アラビア手話(ArSL)のバリエーションにより難しい研究課題となっている。
提案システムは、アラビア手話の手振りを入力とし、発声音声を出力する。
結果は90%の人に認識された。
論文 参考訳(メタデータ) (2022-03-10T19:36:04Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Novel Approach to Use HU Moments with Image Processing Techniques for
Real Time Sign Language Communication [0.0]
手話通信装置(SLC)は,手話利用者と他国との言語障壁を解決するために設計されている。
システムは選択した手話記号を84%の精度で認識できる。
論文 参考訳(メタデータ) (2020-07-20T03:10:18Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。