論文の概要: EfficientSign: An Attention-Enhanced Lightweight Architecture for Indian Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2604.08694v1
- Date: Thu, 09 Apr 2026 18:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.535987
- Title: EfficientSign: An Attention-Enhanced Lightweight Architecture for Indian Sign Language Recognition
- Title(参考訳): EfficientSign:インド手話認識のための注意力強化軽量アーキテクチャ
- Authors: Rishabh Gupta, Shravya R. Nalla,
- Abstract要約: 我々は、EfficientNet-B0を採用し、2つの注目モジュールに焦点を当てた軽量モデルを構築します。
インド手話アルファベットの12,637の画像を、他の5つのアプローチと比較した。
- 参考スコア(独自算出の注目度): 3.4772255133148366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How do you build a sign language recognizer that works on a phone? That question drove this work. We built EfficientSign, a lightweight model which takes EfficientNet-B0 and focuses on two attention modules (Squeeze-and-Excitation for channel focus, and a spatial attention layer that focuses on the hand gestures). We tested it against five other approaches on 12,637 images of Indian Sign Language alphabets, all 26 classes, using 5-fold cross-validation. EfficientSign achieves the accuracy of 99.94% (+/-0.05%), which matches the performance of ResNet18's 99.97% accuracy, but with 62% fewer parameters (4.2M vs 11.2M). We also experimented with feeding deep features (1,280-dimensional vectors pulled from EfficientNet-B0's pooling layer) into classical classifiers. SVM achieved the accuracy of 99.63%, Logistic Regression achieved the accuracy of 99.03% and KNN achieved accuracy of 96.33%. All of these blow past the 92% that SURF-based methods managed on a similar dataset back in 2015. Our results show that attention-enhanced learning model provides an efficient and deployable solution for ISL recognition without requiring a massive model or hand-tuned feature pipelines anymore.
- Abstract(参考訳): 携帯電話で使える手話認識器をどうやって作るのか?
その質問がこの仕事のきっかけとなった。
EfficientSignは、EfficientNet-B0を取り入れた軽量モデルで、2つの注意モジュール(チャンネルフォーカスのためのSqueeze-and-Excitation、手の動きに焦点を当てた空間的注意層)に焦点を当てている。
インド手話アルファベットの12,637の画像を5倍のクロスバリデーションを用いてテストした。
EfficientSignは99.94%(+/-0.05%)の精度をResNet18の99.97%の精度で達成しているが、パラメータは62%(4.2M vs 11.2M)少ない。
また,EfficientNet-B0のプーリング層から抽出した1,280次元ベクトルの深い特徴を古典的分類器に供給する実験を行った。
SVMは99.63%、ロジスティック回帰は99.03%、KNNは96.33%の精度を達成した。
これらすべてが、2015年にSURFベースのメソッドが同様のデータセットで管理した92%を突破した。
この結果から,集中学習モデルは,大規模モデルや手作業による機能パイプラインを必要とせずに,ISL認識のための効率的かつデプロイ可能なソリューションを提供することがわかった。
関連論文リスト
- Why Agent Caching Fails and How to Fix It: Structured Intent Canonicalization with Few-Shot Learning [0.0]
キャッシュの有効性は、分類精度ではなく、キーの一貫性と精度を必要とする。
構造化意図分解フレームワークであるW5H2を紹介する。
NyayaBench v2 (20クラス)では、SetFitは55.3%を達成し、30言語にまたがる言語間転送を実現している。
論文 参考訳(メタデータ) (2026-02-21T18:25:18Z) - Balanced Multi-Task Attention for Satellite Image Classification: A Systematic Approach to Achieving 97.23% Accuracy on EuroSAT Without Pre-Training [0.0]
本研究は、衛星土地利用分類のための独自の畳み込みニューラルネットワークアーキテクチャを体系的に研究する。
事前訓練されたモデルに依存することなく、EuroSATデータセット上で97.23%のテスト精度を達成する。
我々の手法は、外部データを必要としない微調整されたResNet-50(98.57%)の1.34%で性能を達成する。
論文 参考訳(メタデータ) (2025-10-17T10:59:24Z) - Revolutionizing Communication with Deep Learning and XAI for Enhanced Arabic Sign Language Recognition [0.0]
本研究では、MobileNetV3、ResNet50、EfficientNet-B2といった最先端のディープラーニングモデルを用いて、アラビア手話(ArSL)を認識するための統合的なアプローチを提案する。
提案システムは、認識精度の新たなベンチマークを設定するだけでなく、解釈可能性も重視し、医療、教育、包括的コミュニケーション技術への応用に適している。
論文 参考訳(メタデータ) (2025-01-14T14:49:49Z) - Exploiting CNNs for Semantic Segmentation with Pascal VOC [0.0]
本稿では,Pascal VOCデータセットを用いたセマンティックセグメンテーションに関する総合的研究を行う。
まずFCN(Fully Convolution Network)ベースラインを使用し、71.31%の精度と0.0527の平均IoUを実現した。
パフォーマンスと動作を分析し、その後、ベースラインにおける問題に3つの改善を加えて対処します。
論文 参考訳(メタデータ) (2023-04-26T00:40:27Z) - Measuring Self-Supervised Representation Quality for Downstream
Classification using Discriminative Features [56.89813105411331]
我々は,SimCLR,SwaV,MoCo,BYOL,DINO,SimSiam,VICReg,Barlow Twinsといった最先端の自己教師型モデルの表現空間について検討した。
本稿では,標本が誤分類される可能性を確実に予測できる教師なしスコアである自己監督表現品質スコア(Qスコア)を提案する。
Q-Score正規化による微調整により、SSLモデルの線形探索精度はImageNet-100で5.8%、ImageNet-1Kで3.7%向上する。
論文 参考訳(メタデータ) (2022-03-03T17:48:23Z) - To be Critical: Self-Calibrated Weakly Supervised Learning for Salient
Object Detection [95.21700830273221]
弱教師付き有色物体検出(WSOD)は,画像レベルのアノテーションを用いた有色度モデルの開発を目的としている。
擬似ラベルとネットワーク予測の相互校正ループを明確に設定し,自己校正学習戦略を提案する。
十分に整合したアノテーションを持つはるかに小さなデータセットであっても、モデルがより優れたパフォーマンスと一般化性を達成するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-04T02:45:22Z) - VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文 参考訳(メタデータ) (2021-06-24T15:46:54Z) - ContextNet: Improving Convolutional Neural Networks for Automatic Speech
Recognition with Global Context [58.40112382877868]
ContextNet と呼ばれる新しい CNN-RNN-Transducer アーキテクチャを提案する。
ContextNetは、グローバルコンテキスト情報を畳み込みレイヤに組み込む、完全な畳み込みエンコーダを備えている。
クリーン/ノイズの多いLibriSpeechテストセット上では、ContextNetは、外部言語モデル(LM)なしで2.1%/4.6%、LMで1.9%/4.1%、および2.9%/7.0%のワードエラー率(WER)を達成した。
論文 参考訳(メタデータ) (2020-05-07T01:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。