論文の概要: PenSLR: Persian end-to-end Sign Language Recognition Using Ensembling
- arxiv url: http://arxiv.org/abs/2406.16388v1
- Date: Mon, 24 Jun 2024 07:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 15:43:33.469133
- Title: PenSLR: Persian end-to-end Sign Language Recognition Using Ensembling
- Title(参考訳): PenSLR: Ensemblingを用いたペルシアのエンドツーエンド手話認識
- Authors: Amirparsa Salmankhah, Amirreza Rajabi, Negin Kheirmand, Ali Fadaeimanesh, Amirreza Tarabkhah, Amirreza Kazemzadeh, Hamed Farbeh,
- Abstract要約: Pen SLRは、IMU(Inertial Measurement Unit)とディープラーニングフレームワークによって駆動される5つのフレキシブルセンサーで構成されるグローブベースの手話システムである。
本稿では,スターアライメント(Star Alignment)と呼ばれる複数のシーケンスアライメントアルゴリズムを活用することで,新しいアンサンブル手法を提案する。
評価の結果,Pen SLRの単語精度は94.58%,96.70%であった。
- 参考スコア(独自算出の注目度): 0.953605234706973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign Language Recognition (SLR) is a fast-growing field that aims to fill the communication gaps between the hearing-impaired and people without hearing loss. Existing solutions for Persian Sign Language (PSL) are limited to word-level interpretations, underscoring the need for more advanced and comprehensive solutions. Moreover, previous work on other languages mainly focuses on manipulating the neural network architectures or hardware configurations instead of benefiting from the aggregated results of multiple models. In this paper, we introduce PenSLR, a glove-based sign language system consisting of an Inertial Measurement Unit (IMU) and five flexible sensors powered by a deep learning framework capable of predicting variable-length sequences. We achieve this in an end-to-end manner by leveraging the Connectionist Temporal Classification (CTC) loss function, eliminating the need for segmentation of input signals. To further enhance its capabilities, we propose a novel ensembling technique by leveraging a multiple sequence alignment algorithm known as Star Alignment. Furthermore, we introduce a new PSL dataset, including 16 PSL signs with more than 3000 time-series samples in total. We utilize this dataset to evaluate the performance of our system based on four word-level and sentence-level metrics. Our evaluations show that PenSLR achieves a remarkable word accuracy of 94.58% and 96.70% in subject-independent and subject-dependent setups, respectively. These achievements are attributable to our ensembling algorithm, which not only boosts the word-level performance by 0.51% and 1.32% in the respective scenarios but also yields significant enhancements of 1.46% and 4.00%, respectively, in sentence-level accuracy.
- Abstract(参考訳): 手話認識(SLR)は、聴覚障害者と聴覚障害のない人のコミュニケーションギャップを埋めることを目的とした、急速に成長する分野である。
既存のペルシャ手話(PSL)のソリューションは単語レベルの解釈に限られており、より高度で包括的なソリューションの必要性を強調している。
さらに、他の言語に関する以前の研究は、主に、複数のモデルの集約された結果の恩恵を受けるのではなく、ニューラルネットワークアーキテクチャやハードウェア構成を操作することに焦点を当てていた。
本稿では,IMU(Inertial Measurement Unit)と,可変長シーケンスを予測可能なディープラーニングフレームワークを用いた5つのフレキシブルセンサで構成される,グローブベースの手話システムであるPenSLRを紹介する。
我々は、コネクショニスト時間分類(CTC)損失関数を活用し、入力信号のセグメンテーションを不要にすることで、エンドツーエンドでこれを実現する。
そこで本研究では,スターアライメント(Star Alignment)と呼ばれる複数のシーケンスアライメントアルゴリズムを活用することで,新たなアンサンブル手法を提案する。
さらに、3000以上の時系列サンプルを含む16のPSL符号を含む、新しいPSLデータセットを導入する。
このデータセットを用いて、4つの単語レベルおよび文レベルメトリクスに基づいてシステムの性能を評価する。
評価の結果,PenSLR の単語精度は 94.58% と 996.70% であることがわかった。
これらの成果は,各シナリオにおいて単語レベルの性能を0.51%,1.32%向上させるだけでなく,文レベルの精度で1.46%,4.00%の大幅な向上をもたらす。
関連論文リスト
- Sign language recognition based on deep learning and low-cost handcrafted descriptors [0.0]
単語間のあいまいさを避けるため,ジェスチャ実行においてできるだけ多くの言語パラメータを考慮することが重要である。
選択した技術がリアルであることを保証することが不可欠であり、高価な、侵入的、または低運動量のセンサーを避ける。
低コストなセンサと技術を用いた手話認識システムを提案する。
論文 参考訳(メタデータ) (2024-08-14T00:56:51Z) - Chain of Stance: Stance Detection with Large Language Models [3.528201746844624]
スタンス検出は自然言語処理(NLP)におけるアクティブタスクである
我々は、Stance (CoS) の textitChain と呼ばれる新しいプロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-08-03T16:30:51Z) - Multi-Stream Keypoint Attention Network for Sign Language Recognition and Translation [3.976851945232775]
現在の手話認識のアプローチは、背景のゆらぎに弱いRGBビデオ入力に依存している。
本稿では,容易に利用可能なキーポイント推定器によって生成されるキーポイントのシーケンスを記述するためのマルチストリームキーポイントアテンションネットワークを提案する。
我々は、Phoenix-2014、Phoenix-2014T、CSL-Dailyといった有名なベンチマークで包括的な実験を行い、方法論の有効性を実証した。
論文 参考訳(メタデータ) (2024-05-09T10:58:37Z) - Sign Language Recognition based on YOLOv5 Algorithm for the Telugu Sign Language [0.0]
本稿では、YOLOv5オブジェクト識別フレームワークを用いて、TSL内のジェスチャーを識別する新しい手法を提案する。
YOLOv5を使ってジェスチャーを認識して分類するディープラーニングモデルが開発された。
各種のTSLジェスチャーおよび設定に対するシステムの安定性と一般化性は厳密なテストと検証によって評価された。
論文 参考訳(メタデータ) (2024-04-24T18:39:27Z) - Sign Language Conversation Interpretation Using Wearable Sensors and
Machine Learning [0.0]
様々な難聴で苦しむ人々の数は、2019年に17億5000万人に達した。
本稿では,3フレキシブルセンサのウェアラブルデバイスを用いて得られたデータをもとに,手話自動認識システムの概念の実証を行う。
論文 参考訳(メタデータ) (2023-12-19T07:06:32Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - FewJoint: A Few-shot Learning Benchmark for Joint Language Understanding [55.38905499274026]
機械学習は、機械学習における重要なステップの1つだ。
FewJointは、NLP用のFew-Shot Learningベンチマークである。
論文 参考訳(メタデータ) (2020-09-17T08:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。