論文の概要: Interpretation of Swedish Sign Language using Convolutional Neural
Networks and Transfer Learning
- arxiv url: http://arxiv.org/abs/2010.07827v1
- Date: Thu, 15 Oct 2020 15:34:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 03:08:53.178341
- Title: Interpretation of Swedish Sign Language using Convolutional Neural
Networks and Transfer Learning
- Title(参考訳): 畳み込みニューラルネットワークと転送学習を用いたスウェーデン手話の解釈
- Authors: Gustaf Halvardsson, Johanna Peterson, C\'esar Soto-Valero, Benoit
Baudry
- Abstract要約: 我々は、スウェーデン手話(SSL)ハンドアルファベットの記号をコンピュータが解釈できるように、畳み込みニューラルネットワーク(CNN)とトランスファーラーニングを用いている。
我々のモデルは、事前訓練されたInceptionV3ネットワークの実装と、ミニバッチ勾配勾配最適化アルゴリズムの使用から成り立っている。
モデルの最終精度は8人の被験者と9,400人の画像に基づいており、85%である。
- 参考スコア(独自算出の注目度): 2.7629216089139934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The automatic interpretation of sign languages is a challenging task, as it
requires the usage of high-level vision and high-level motion processing
systems for providing accurate image perception. In this paper, we use
Convolutional Neural Networks (CNNs) and transfer learning in order to make
computers able to interpret signs of the Swedish Sign Language (SSL) hand
alphabet. Our model consist of the implementation of a pre-trained InceptionV3
network, and the usage of the mini-batch gradient descent optimization
algorithm. We rely on transfer learning during the pre-training of the model
and its data. The final accuracy of the model, based on 8 study subjects and
9,400 images, is 85%. Our results indicate that the usage of CNNs is a
promising approach to interpret sign languages, and transfer learning can be
used to achieve high testing accuracy despite using a small training dataset.
Furthermore, we describe the implementation details of our model to interpret
signs as a user-friendly web application.
- Abstract(参考訳): 手話の自動解釈は、正確な画像知覚を提供するために高レベルビジョンと高レベルモーションプロセッシングシステムを使用する必要があるため、難しい課題である。
本稿では,スウェーデン手話(SSL)ハンドアルファベットの記号をコンピュータが解釈できるように,畳み込みニューラルネットワーク(CNN)と伝達学習を用いる。
本モデルは,事前学習したinceptionv3ネットワークの実装と,ミニバッチ勾配降下最適化アルゴリズムの利用からなる。
モデルの事前トレーニングとデータの転送学習に依存しています。
モデルの最終精度は8つの被験者と9,400の画像に基づいて85%である。
この結果から,CNNの使用は手話言語を解釈するための有望な手法であり,手話学習は小規模な学習データセットを用いても高いテスト精度を達成することができることがわかった。
さらに,本モデルの実装の詳細を説明し,ユーザフレンドリーなwebアプリケーションとしてサインを解釈する。
関連論文リスト
- Deep Neural Network-Based Sign Language Recognition: A Comprehensive Approach Using Transfer Learning with Explainability [0.0]
我々は、ディープニューラルネットワークを使って手話認識を完全に自動化する新しいソリューションを提案する。
この手法は、高度な前処理方法論を統合し、全体的なパフォーマンスを最適化する。
SHAP (SHapley Additive exPlanations) 法を用いて, 情報的明瞭度の提供能力を評価した。
論文 参考訳(メタデータ) (2024-09-11T17:17:44Z) - Enhancing Sign Language Detection through Mediapipe and Convolutional Neural Networks (CNN) [3.192629447369627]
この研究は、ASLデータセットの効率的かつ正確な解釈のためにMediaPipeとCNNを組み合わせる。
ASLデータセットのモデルによって達成される精度は99.12%である。
このシステムは、コミュニケーション、教育、アクセシビリティードメインに応用される。
論文 参考訳(メタデータ) (2024-06-06T04:05:12Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Sign Language to Text Conversion in Real Time using Transfer Learning [0.0]
本稿では,アメリカ手話を用いたディープラーニングモデルを提案する。
精度はCNNの94%から、Transfer Learningによって98.7%に向上した。
論文 参考訳(メタデータ) (2022-11-13T17:20:19Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - Application of Transfer Learning to Sign Language Recognition using an
Inflated 3D Deep Convolutional Neural Network [0.0]
転送学習は、十分なデータを持たない対象タスクを解決するのに役立つ大量のデータを持つ関連タスクを活用する技術である。
本稿では,手話認識における伝達学習の有効性について検討する。
論文 参考訳(メタデータ) (2021-02-25T13:37:39Z) - Learning to Learn Parameterized Classification Networks for Scalable
Input Images [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、入力解像度の変化に関して予測可能な認識動作を持たない。
我々はメタラーナーを用いて、様々な入力スケールのメインネットワークの畳み込み重みを生成する。
さらに、異なる入力解像度に基づいて、モデル予測よりもフライでの知識蒸留を利用する。
論文 参考訳(メタデータ) (2020-07-13T04:27:25Z) - Auto-Rectify Network for Unsupervised Indoor Depth Estimation [119.82412041164372]
ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
論文 参考訳(メタデータ) (2020-06-04T08:59:17Z) - ASL Recognition with Metric-Learning based Lightweight Network [0.0]
本稿では,ASLジェスチャ認識のための軽量ネットワークを提案する。
トレーニングコードは、Intel OpenVINO Training Extensionsの一部として利用可能である。
論文 参考訳(メタデータ) (2020-04-10T14:41:30Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。