論文の概要: BdSL-SPOTER: A Transformer-Based Framework for Bengali Sign Language Recognition with Cultural Adaptation
- arxiv url: http://arxiv.org/abs/2511.12103v1
- Date: Sat, 15 Nov 2025 08:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.609912
- Title: BdSL-SPOTER: A Transformer-Based Framework for Bengali Sign Language Recognition with Cultural Adaptation
- Title(参考訳): BdSL-SPOTER:文化適応型ベンガル手話認識のためのトランスフォーマーベースフレームワーク
- Authors: Sayad Ibna Azad, Md. Atiqur Rahman,
- Abstract要約: ベンガル手話(BdSL)の正確かつ効率的な認識のためのポーズベースのトランスフォーマーフレームワークであるBdSL-SPOTERを紹介する。
BdSL-SPOTERは、SPOTERパラダイムを拡張し、文化的な前処理と、学習可能な位置符号化を最適化したコンパクトな4層トランスフォーマーエンコーダである。
BdSLW60ベンチマークでは、97.92%のTop-1バリデーションが達成され、Bi-LSTMベースラインよりも22.82%改善された。
- 参考スコア(独自算出の注目度): 0.9883261192383612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce BdSL-SPOTER, a pose-based transformer framework for accurate and efficient recognition of Bengali Sign Language (BdSL). BdSL-SPOTER extends the SPOTER paradigm with cultural specific preprocessing and a compact four-layer transformer encoder featuring optimized learnable positional encodings, while employing curriculum learning to enhance generalization on limited data and accelerate convergence. On the BdSLW60 benchmark, it achieves 97.92% Top-1 validation accuracy, representing a 22.82% improvement over the Bi-LSTM baseline, all while keeping computational costs low. With its reduced number of parameters, lower FLOPs, and higher FPS, BdSL-SPOTER provides a practical framework for real-world accessibility applications and serves as a scalable model for other low-resource regional sign languages.
- Abstract(参考訳): 本稿では,ベンガル手話(BdSL)の正確かつ効率的な認識のためのポーズベースのトランスフォーマーフレームワークであるBdSL-SPOTERを紹介する。
BdSL-SPOTERは、SPOTERパラダイムを拡張し、文化的な前処理と、学習可能な位置エンコーディングを最適化したコンパクトな4層トランスフォーマーエンコーダである。
BdSLW60ベンチマークでは97.92%のTop-1検証精度が達成され、計算コストを低く保ちながら、Bi-LSTMベースラインよりも22.82%改善されている。
BdSL-SPOTERは、パラメータの削減、FLOPの低減、FPSの向上により、現実のアクセシビリティアプリケーションのための実用的なフレームワークを提供し、他の低リソースの地域手話言語のためのスケーラブルなモデルとして機能する。
関連論文リスト
- A Comparative Analysis of Recurrent and Attention Architectures for Isolated Sign Language Recognition [0.0]
本研究では,アゼルバイジャンの手話データセット上で,ConvLSTMとVanilla Transformerの2つの代表的なモデルを実装し,評価する。
その結果,注目に基づくVanilla Transformerは,Top-1とTop-5の精度で連続したConvLSTMより一貫して優れていた。
論文 参考訳(メタデータ) (2025-11-17T08:28:35Z) - Generative Sign-description Prompts with Multi-positive Contrastive Learning for Sign Language Recognition [9.044039469025009]
本稿では,GSP-MC法を提案する。
GSP-MC法はまた、二重エンコーダアーキテクチャを用いて、階層的なスケルトン特徴と複数のテキスト記述を双方向にアライメントする。
実験では、中国のSLR500(97.1%)とトルコのAUTSLデータセット(97.07%の精度)の既存の手法に対する最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-05-05T00:57:57Z) - CLIP-SLA: Parameter-Efficient CLIP Adaptation for Continuous Sign Language Recognition [1.534667887016089]
連続手話認識(CSLR)は、ビデオ中の手話ジェスチャーのシーケンスを解釈し、翻訳することに焦点を当てている。
CLIPモデルから学習済みの強力なビジュアルエンコーダを利用して手話課題に対処する新しいCSLRフレームワークであるCLIP手話適応(CLIP-SLA)を提案する。
CLIPビジュアルエンコーダにPEFTモジュールを統合するSLA-AdapterとSLA-LoRAの2つのバリエーションを導入し、最小限のトレーニング可能なパラメータで微調整を可能にする。
論文 参考訳(メタデータ) (2025-04-02T12:15:33Z) - BdSLW401: Transformer-Based Word-Level Bangla Sign Language Recognition Using Relative Quantization Encoding (RQE) [2.762888756640272]
Banglaのような低リソース言語に対する手話認識は、手話のバリエーション、視点の変化、限られたデータセットに悩まされている。
BdSLW401は18の注釈付きシグナーから401の符号と102,176のビデオサンプルを持つ大規模で多視点の単語レベルBandgla Sign Language(BdSL)データセットである。
論文 参考訳(メタデータ) (2025-03-04T07:34:06Z) - Byte Latent Transformer: Patches Scale Better Than Tokens [101.10994909832063]
Byte Latent Transformer (BLT) はバイトを動的サイズのパッチにエンコードする。
固定推論コストに対して、BLTはパッチとモデルサイズの両方を同時に拡大することにより、トークン化ベースのモデルよりもはるかに優れたスケーリングを示している。
論文 参考訳(メタデータ) (2024-12-13T05:33:32Z) - New keypoint-based approach for recognising British Sign Language (BSL) from sequences [53.397276621815614]
本稿では,イギリス手話(BSL)単語を連続署名シーケンス内で認識するキーポイントに基づく新しい分類モデルを提案する。
我々のモデルの性能はBOBSLデータセットを用いて評価され、キーポイントベースのアプローチが計算効率とメモリ使用量においてRGBベースのアプローチを上回ることが判明した。
論文 参考訳(メタデータ) (2024-12-12T17:20:27Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。