論文の概要: A Comparative Analysis of Recurrent and Attention Architectures for Isolated Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2511.13126v1
- Date: Mon, 17 Nov 2025 08:28:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.00528
- Title: A Comparative Analysis of Recurrent and Attention Architectures for Isolated Sign Language Recognition
- Title(参考訳): 孤立手話認識のための繰り返し・注意アーキテクチャの比較分析
- Authors: Nigar Alishzade, Gulchin Abdullayeva,
- Abstract要約: 本研究では,アゼルバイジャンの手話データセット上で,ConvLSTMとVanilla Transformerの2つの代表的なモデルを実装し,評価する。
その結果,注目に基づくVanilla Transformerは,Top-1とTop-5の精度で連続したConvLSTMより一貫して優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study presents a systematic comparative analysis of recurrent and attention-based neural architectures for isolated sign language recognition. We implement and evaluate two representative models-ConvLSTM and Vanilla Transformer-on the Azerbaijani Sign Language Dataset (AzSLD) and the Word-Level American Sign Language (WLASL) dataset. Our results demonstrate that the attention-based Vanilla Transformer consistently outperforms the recurrent ConvLSTM in both Top-1 and Top-5 accuracy across datasets, achieving up to 76.8% Top-1 accuracy on AzSLD and 88.3% on WLASL. The ConvLSTM, while more computationally efficient, lags in recognition accuracy, particularly on smaller datasets. These findings highlight the complementary strengths of each paradigm: the Transformer excels in overall accuracy and signer independence, whereas the ConvLSTM offers advantages in computational efficiency and temporal modeling. The study provides a nuanced analysis of these trade-offs, offering guidance for architecture selection in sign language recognition systems depending on application requirements and resource constraints.
- Abstract(参考訳): 本研究では,手話認識のための再帰型および注意型ニューラルアーキテクチャの系統的比較分析を行った。
本稿では,Azerbaijani Sign Language Dataset (AzSLD) とWord-Level American Sign Language (WLASL) のデータセット上で,ConvLSTM と Vanilla Transformer の2つの代表的なモデルを実装し,評価する。
我々の結果は、注目ベースのVanilla Transformerがデータセット間のTop-1とTop-5の繰り返しConvLSTMの精度を一貫して上回り、AzSLDでは76.8%、WLASLでは88.3%に達することを示した。
ConvLSTMは、より計算効率が良いが、認識精度は、特に小さなデータセットで遅れている。
トランスフォーマーは全体的な精度とシグナーの独立性が優れているのに対して、ConvLSTMは計算効率と時間的モデリングの利点がある。
アプリケーション要件やリソース制約に応じて手話認識システムにおけるアーキテクチャ選択のガイダンスを提供する。
関連論文リスト
- Real-Time Sign Language to text Translation using Deep Learning: A Comparative study of LSTM and 3D CNN [0.0]
本研究では,リアルタイムアメリカ手話(ASL)のための3次元時間的ニューラルネットワーク(3D CNN)とLong Short-Term Memory(LSTM)ネットワークの性能について検討する。
実験の結果、3D CNNは92.4%の精度で認識できるが、LSTMに比べて3.2%の処理時間を必要とすることがわかった。
このプロジェクトでは,エッジコンピューティング環境における認識精度とリアルタイム運用要件とのトレードオフを強調した,補助技術開発のためのプロフェッショナルベンチマークを提供する。
論文 参考訳(メタデータ) (2025-10-15T04:26:33Z) - ShishuLM: Lightweight Language Model with Hybrid Decoder-MLP Architecture and Paired Weight Sharing [0.5565728870245015]
本稿では,パラメータカウントとキーバリュー(KV)キャッシュ要求の両方を削減できる,効率的な言語モデルアーキテクチャであるShishuLMを紹介した。
以上の結果から,ShshuLMは最大25%のメモリ要求を削減し,トレーニングと推論の両方で最大40%のレイテンシ向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-10-13T04:04:54Z) - Interpretable Zero-Shot Learning with Locally-Aligned Vision-Language Model [56.573203512455706]
大規模視覚言語モデル(VLM)は、大規模視覚テキストペアデータセットを活用することでゼロショット学習(ZSL)において顕著な成功を収めた。
この問題に対処する1つのアプローチは、言語を統合することで解釈可能なモデルを開発することである。
本稿では,ZSLを解釈可能な言語モデルであるLaZSLを提案する。
論文 参考訳(メタデータ) (2025-06-30T13:14:46Z) - SignBart -- New approach with the skeleton sequence for Isolated Sign language Recognition [0.17578923069457017]
本研究では,骨格配列のx,y座標から意味情報を独立に抽出することの難しさを克服する新しいSLR手法を提案する。
749,888のパラメータだけで、このモデルはLSA-64データセットで96.04%の精度を達成している。
このモデルはまた、WLASLとASL-Citizenデータセット間で優れたパフォーマンスと一般化を示す。
論文 参考訳(メタデータ) (2025-06-18T07:07:36Z) - Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Training Strategies for Isolated Sign Language Recognition [72.27323884094953]
本稿では,孤立手話認識のための包括的モデル学習パイプラインを提案する。
構築されたパイプラインには、慎重に選択された画像とビデオの拡張が含まれており、低いデータ品質とさまざまなサインスピードの課題に対処している。
論文 参考訳(メタデータ) (2024-12-16T08:37:58Z) - Attention vs LSTM: Improving Word-level BISINDO Recognition [0.0]
インドネシアは、聴覚障害の件数で世界第4位である。
聴覚障害のある人は、しばしばコミュニケーションが困難であり、手話を使う必要がある。
本研究の目的は,手話翻訳アプリの簡易化と辞書化のためのモデル開発におけるAIの適用性を検討することである。
論文 参考訳(メタデータ) (2024-09-03T15:17:39Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。