論文の概要: BdSLW401: Transformer-Based Word-Level Bangla Sign Language Recognition Using Relative Quantization Encoding (RQE)
- arxiv url: http://arxiv.org/abs/2503.02360v1
- Date: Tue, 04 Mar 2025 07:34:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:25:59.407874
- Title: BdSLW401: Transformer-Based Word-Level Bangla Sign Language Recognition Using Relative Quantization Encoding (RQE)
- Title(参考訳): BdSLW401: 相対量子化符号化(RQE)を用いたトランスフォーマーに基づく単語レベルバングラ手話認識
- Authors: Husne Ara Rubaiyeat, Njayou Youssouf, Md Kamrul Hasan, Hasan Mahmud,
- Abstract要約: Banglaのような低リソース言語に対する手話認識は、手話のバリエーション、視点の変化、限られたデータセットに悩まされている。
BdSLW401は18の注釈付きシグナーから401の符号と102,176のビデオサンプルを持つ大規模で多視点の単語レベルBandgla Sign Language(BdSL)データセットである。
- 参考スコア(独自算出の注目度): 2.762888756640272
- License:
- Abstract: Sign language recognition (SLR) for low-resource languages like Bangla suffers from signer variability, viewpoint variations, and limited annotated datasets. In this paper, we present BdSLW401, a large-scale, multi-view, word-level Bangla Sign Language (BdSL) dataset with 401 signs and 102,176 video samples from 18 signers in front and lateral views. To improve transformer-based SLR, we introduce Relative Quantization Encoding (RQE), a structured embedding approach anchoring landmarks to physiological reference points and quantize motion trajectories. RQE improves attention allocation by decreasing spatial variability, resulting in 44.3% WER reduction in WLASL100, 21.0% in SignBD-200, and significant gains in BdSLW60 and SignBD-90. However, fixed quantization becomes insufficient on large-scale datasets (e.g., WLASL2000), indicating the need for adaptive encoding strategies. Further, RQE-SF, an extended variant that stabilizes shoulder landmarks, achieves improvements in pose consistency at the cost of small trade-offs in lateral view recognition. The attention graphs prove that RQE improves model interpretability by focusing on the major articulatory features (fingers, wrists) and the more distinctive frames instead of global pose changes. Introducing BdSLW401 and demonstrating the effectiveness of RQE-enhanced structured embeddings, this work advances transformer-based SLR for low-resource languages and sets a benchmark for future research in this area.
- Abstract(参考訳): Banglaのような低リソース言語向けの手話認識(SLR)は、手話の変動、視点の変化、限られた注釈付きデータセットに悩まされている。
本稿では, BdSLW401を提案する。BdSLW401は, 大規模かつ多視点, 単語レベルのBandla Sign Language (BdSL) データセットで, 401サインと102,176本のビデオサンプルを前後の18のシグナから作成する。
変換器をベースとしたSLRを改善するために,ランドマークを固定する構造的埋め込み手法である相対量子化符号化(RQE)を導入し,運動軌跡を定量化する。
RQEは空間変動を減少させ、WLASL100の44.3%のWER削減、SignBD-200の21.0%、BdSLW60とSignBD-90の顕著な増加をもたらす。
しかし、大規模なデータセット(例えばWLASL2000)では固定量子化が不十分になり、適応符号化戦略の必要性が示唆される。
さらに、肩のランドマークを安定させる拡張型であるRQE-SFは、横方向の認識において小さなトレードオフを犠牲にして、ポーズ整合性を改善する。
注意グラフは、RQEが、大域的なポーズの変化ではなく、主要な調音的特徴(指、手首)とより独特なフレームに焦点を当てることで、モデルの解釈可能性を改善することを証明している。
BdSLW401の導入とRQEで強化された構造化埋め込みの有効性を示すこの研究は、低リソース言語のためのトランスフォーマーベースのSLRを前進させ、この分野における将来の研究のためのベンチマークを設定する。
関連論文リスト
- Spatio-temporal transformer to support automatic sign language translation [0.0]
本稿では,時間的動きのジェスチャーを符号化し,局所的・長距離的空間情報を保存するトランスフォーマーアーキテクチャを提案する。
提案手法はコロンビア手話翻訳データセットで検証された。
論文 参考訳(メタデータ) (2025-02-04T18:59:19Z) - Training Strategies for Isolated Sign Language Recognition [72.27323884094953]
本稿では,孤立手話認識のための包括的モデル学習パイプラインを提案する。
構築されたパイプラインには、慎重に選択された画像とビデオの拡張が含まれており、低いデータ品質とさまざまなサインスピードの課題に対処している。
WLASLとSlovoのベンチマークでは、以前のベストソリューションと比較して1.63%と14.12%の改善が得られた。
論文 参考訳(メタデータ) (2024-12-16T08:37:58Z) - Bengali Sign Language Recognition through Hand Pose Estimation using Multi-Branch Spatial-Temporal Attention Model [0.5825410941577593]
画像列から抽出した手関節骨格を考慮した空間的時間的注意に基づくBSL認識モデルを提案する。
本モデルでは, 高次元特徴空間上に投影された統一関節特徴に基づいて, 識別的構造変位と短距離依存性を捉える。
論文 参考訳(メタデータ) (2024-08-26T08:55:16Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - PenSLR: Persian end-to-end Sign Language Recognition Using Ensembling [0.953605234706973]
Pen SLRは、IMU(Inertial Measurement Unit)とディープラーニングフレームワークによって駆動される5つのフレキシブルセンサーで構成されるグローブベースの手話システムである。
本稿では,スターアライメント(Star Alignment)と呼ばれる複数のシーケンスアライメントアルゴリズムを活用することで,新しいアンサンブル手法を提案する。
評価の結果,Pen SLRの単語精度は94.58%,96.70%であった。
論文 参考訳(メタデータ) (2024-06-24T07:59:34Z) - Improving Gloss-free Sign Language Translation by Reducing Representation Density [38.24463842418624]
Gloss-free sign language translation (SLT) は、コストのかかるGlossアノテーションを必要とせずに、良好なパフォーマンスのSLTシステムを開発することを目的としている。
我々は、光沢のないSLTの性能を制限するボトルネックとなる表現密度問題を特定する。
比較学習戦略,すなわちSignCLを導入し,より差別的な特徴表現を学習するための光沢のないモデルを提案する。
論文 参考訳(メタデータ) (2024-05-23T08:32:58Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Speaker Representation Learning using Global Context Guided Channel and
Time-Frequency Transformations [67.18006078950337]
グローバルな文脈情報を用いて、重要なチャネルを強化し、有意義な時間周波数位置を再検討する。
提案されたモジュールは、人気のあるResNetベースのモデルとともに、VoxCeleb1データセットで評価される。
論文 参考訳(メタデータ) (2020-09-02T01:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。