論文の概要: SSLR: A Semi-Supervised Learning Method for Isolated Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2504.16640v1
- Date: Wed, 23 Apr 2025 11:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 16:39:37.890975
- Title: SSLR: A Semi-Supervised Learning Method for Isolated Sign Language Recognition
- Title(参考訳): SSLR: 独立した手話認識のための半教師付き学習方法
- Authors: Hasan Algafri, Hamzah Luqman, Sarah Alyami, Issam Laradji,
- Abstract要約: 手話認識システムは手話のジェスチャーを認識し、それを音声言語に翻訳することを目的としている。
SLRの主な課題の1つは、注釈付きデータセットの不足である。
本研究では, 擬似ラベル法を用いたSLRの半教師付き学習手法を提案する。
- 参考スコア(独自算出の注目度): 2.409285779772107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign language is the primary communication language for people with disabling hearing loss. Sign language recognition (SLR) systems aim to recognize sign gestures and translate them into spoken language. One of the main challenges in SLR is the scarcity of annotated datasets. To address this issue, we propose a semi-supervised learning (SSL) approach for SLR (SSLR), employing a pseudo-label method to annotate unlabeled samples. The sign gestures are represented using pose information that encodes the signer's skeletal joint points. This information is used as input for the Transformer backbone model utilized in the proposed approach. To demonstrate the learning capabilities of SSL across various labeled data sizes, several experiments were conducted using different percentages of labeled data with varying numbers of classes. The performance of the SSL approach was compared with a fully supervised learning-based model on the WLASL-100 dataset. The obtained results of the SSL model outperformed the supervised learning-based model with less labeled data in many cases.
- Abstract(参考訳): 手話は難聴者のための主要なコミュニケーション言語である。
手話認識(SLR)システムは手話のジェスチャーを認識し、それを音声言語に翻訳することを目的としている。
SLRの主な課題の1つは、注釈付きデータセットの不足である。
そこで本研究では,SLR (SSLR) に対する半教師付き学習 (SSL) アプローチを提案する。
サインジェスチャーは、署名者の骨格関節点を符号化するポーズ情報を用いて表現される。
この情報は,提案手法で使用されるTransformerのバックボーンモデルの入力として使用される。
さまざまなラベル付きデータサイズにまたがるSSLの学習能力を実証するために,クラス数が異なるラベル付きデータの異なるパーセンテージを用いていくつかの実験を行った。
SSLアプローチのパフォーマンスは、WLASL-100データセット上の完全に教師付き学習ベースモデルと比較された。
SSLモデルの結果は、多くの場合、ラベル付きデータが少ない教師付き学習ベースモデルよりも優れていた。
関連論文リスト
- A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Towards the extraction of robust sign embeddings for low resource sign
language recognition [7.969704867355098]
キーポイントベースの埋め込みは手話間を移動し、競争性能を達成することができることを示す。
さらに、ターゲット手話のみで訓練されたモデルよりも、微調整されたトランスポート埋め込みを用いて、より良い性能を実現する。
論文 参考訳(メタデータ) (2023-06-30T11:21:40Z) - Explaining, Analyzing, and Probing Representations of Self-Supervised
Learning Models for Sensor-based Human Activity Recognition [2.2082422928825136]
自己教師付き学習(SSL)フレームワークは、センサベースヒューマンアクティビティ認識(HAR)に広く応用されている。
本稿では,最近のSSLフレームワークであるSimCLRとVICRegの深層表現を解析することを目的とする。
論文 参考訳(メタデータ) (2023-04-14T07:53:59Z) - Automatic Pronunciation Assessment using Self-Supervised Speech
Representation Learning [13.391307807956673]
自己教師付き学習(SSL)モデルに基づく新しい発音評価手法を提案する。
提案手法は,英単語学習者の英語発音に適応するために,事前学習したSSLモデルを接続型時間分類で微調整する。
提案手法は,韓国のESL学習者とSpeechocean762のデータセットに基づいて,ピアソン相関係数を用いてベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-08T06:13:55Z) - Augmented Contrastive Self-Supervised Learning for Audio Invariant
Representations [28.511060004984895]
ラベルのないデータから不変表現を学習するための拡張コントラスト型SSLフレームワークを提案する。
提案手法はラベルのない入力データに様々な摂動を適用し,コントラスト学習を用いて,そのような摂動に頑健な表現を学習する。
論文 参考訳(メタデータ) (2021-12-21T02:50:53Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。
最近の研究では、音声からSSLも調べた。
音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:27:09Z) - End-to-end Generative Zero-shot Learning via Few-shot Learning [76.9964261884635]
ゼロショット学習(ZSL)の最先端アプローチでは、生成ネットをトレーニングし、提供されたメタデータに条件付きサンプルを合成する。
本稿では,このような手法をバックボーンとして使用し,合成した出力をFew-Shot Learningアルゴリズムに供給するエンドツーエンド生成ZSLフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-08T17:35:37Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。