論文の概要: Data-Efficient American Sign Language Recognition via Few-Shot Prototypical Networks
- arxiv url: http://arxiv.org/abs/2512.10562v1
- Date: Thu, 11 Dec 2025 11:50:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.346368
- Title: Data-Efficient American Sign Language Recognition via Few-Shot Prototypical Networks
- Title(参考訳): Few-Shot Prototypeal Networksによるデータ効率の良いアメリカ手話認識
- Authors: Meher Md Saad,
- Abstract要約: 孤立手話認識は、難聴者と難聴者(DHH)コミュニティと聴覚世界との間のコミュニケーションギャップを埋めるために重要である。
骨格型エンコーダに適応したFew-Shot Prototypeal Networkフレームワークを提案する。
提案手法は,記号が動的クラスプロトタイプに近接して分類される意味的距離空間の学習に,韻律的学習を利用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Isolated Sign Language Recognition (ISLR) is critical for bridging the communication gap between the Deaf and Hard-of-Hearing (DHH) community and the hearing world. However, robust ISLR is fundamentally constrained by data scarcity and the long-tail distribution of sign vocabulary, where gathering sufficient examples for thousands of unique signs is prohibitively expensive. Standard classification approaches struggle under these conditions, often overfitting to frequent classes while failing to generalize to rare ones. To address this bottleneck, we propose a Few-Shot Prototypical Network framework adapted for a skeleton based encoder. Unlike traditional classifiers that learn fixed decision boundaries, our approach utilizes episodic training to learn a semantic metric space where signs are classified based on their proximity to dynamic class prototypes. We integrate a Spatiotemporal Graph Convolutional Network (ST-GCN) with a novel Multi-Scale Temporal Aggregation (MSTA) module to capture both rapid and fluid motion dynamics. Experimental results on the WLASL dataset demonstrate the superiority of this metric learning paradigm: our model achieves 43.75% Top-1 and 77.10% Top-5 accuracy on the test set. Crucially, this outperforms a standard classification baseline sharing the identical backbone architecture by over 13%, proving that the prototypical training strategy effectively outperforms in a data scarce situation where standard classification fails. Furthermore, the model exhibits strong zero-shot generalization, achieving nearly 30% accuracy on the unseen SignASL dataset without fine-tuning, offering a scalable pathway for recognizing extensive sign vocabularies with limited data.
- Abstract(参考訳): 孤立手話認識(ISLR)は難聴者と難聴者(DHH)のコミュニケーションギャップを埋めるために重要である。
しかし、堅牢なISLRは、データ不足と、何千ものユニークな記号に対して十分なサンプルを収集する符号語彙の長期分布によって、基本的に制限されている。
標準的な分類手法はこれらの条件下では困難であり、しばしば希少なクラスへの一般化に失敗しながら、頻繁なクラスに過度に適合する。
このボトルネックに対処するため、スケルトンベースのエンコーダに適応したFew-Shot Prototypeal Networkフレームワークを提案する。
固定決定境界を学習する従来の分類器とは異なり、我々の手法はエピソジック・トレーニングを用いて、記号が動的クラスプロトタイプに近接して分類される意味計量空間を学習する。
我々は、時空間グラフ畳み込みネットワーク(ST-GCN)と、新しいマルチスケール時空間集約(MSTA)モジュールを統合し、高速および流体運動のダイナミクスを捉える。
WLASLデータセットによる実験結果から,このメトリック学習パラダイムの優位性が確認された。このモデルでは,テストセット上で43.75%のTop-1と77.10%のTop-5の精度が達成されている。
重要なことに、これは同じバックボーンアーキテクチャを共有する標準分類基準を13%以上上回り、標準分類が失敗するデータ不足状況において、原型的なトレーニング戦略が事実上上回っていることを証明している。
さらに、このモデルは強力なゼロショットの一般化を示し、微調整なしで未確認のSignASLデータセット上で30%近い精度を実現し、限られたデータで広範囲な手話の語彙を認識するスケーラブルな経路を提供する。
関連論文リスト
- Hierarchical Self-Supervised Representation Learning for Depression Detection from Speech [51.14752758616364]
音声による抑うつ検出 (SDD) は、従来の臨床評価に代わる有望で非侵襲的な代替手段である。
HAREN-CTCは,マルチタスク学習フレームワーク内でのクロスアテンションを用いて,多層SSL機能を統合した新しいアーキテクチャである。
このモデルはDAIC-WOZで0.81、MODMAで0.82の最先端マクロF1スコアを達成し、両方の評価シナリオで先行手法より優れている。
論文 参考訳(メタデータ) (2025-10-05T09:32:12Z) - Stack Transformer Based Spatial-Temporal Attention Model for Dynamic Sign Language and Fingerspelling Recognition [1.949837893170278]
手話に基づく手話認識は、聴覚障害者と非聴覚障害者の間に重要な橋渡しとなる。
本稿では,新しいトランスフォーマーアーキテクチャであるSSTAN(Sequential Spatio-Temporal Attention Network)を提案する。
多様な大規模データセットに関する広範な実験を通じて、我々のモデルを検証した。
論文 参考訳(メタデータ) (2025-03-21T04:57:18Z) - CGMatch: A Different Perspective of Semi-supervised Learning [20.03126368452921]
ラベル付きデータを利用したセミ教師付き学習(SSL)が注目されている。
既存の手法はモデルの状態を正確に評価するためにモデルの信頼性にのみ依存している、と我々は主張する。
我々はCGMatchと呼ばれる新しいSSLモデルを提案し、これが初めてCount-Gapと呼ばれる新しいメトリックを組み込んだ。
論文 参考訳(メタデータ) (2025-03-04T03:14:15Z) - Self-supervised Learning for Acoustic Few-Shot Classification [10.180992026994739]
我々は、CNNに基づく前処理と状態空間モデル(SSM)に基づく特徴抽出を組み合わせた新しいアーキテクチャを導入、評価する。
実際のタスクデータに対するコントラスト学習と,それに続くラベル付きデータによる微調整を用いて,このアーキテクチャを事前学習する。
本評価は, 数発の分類問題において, 最先端のアーキテクチャよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-15T07:45:11Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。