論文の概要: Application of Transfer Learning to Sign Language Recognition using an
Inflated 3D Deep Convolutional Neural Network
- arxiv url: http://arxiv.org/abs/2103.05111v1
- Date: Thu, 25 Feb 2021 13:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 00:51:04.539021
- Title: Application of Transfer Learning to Sign Language Recognition using an
Inflated 3D Deep Convolutional Neural Network
- Title(参考訳): インフレーション型3次元深部畳み込みニューラルネットワークを用いた手話認識への伝達学習の適用
- Authors: Roman T\"ongi
- Abstract要約: 転送学習は、十分なデータを持たない対象タスクを解決するのに役立つ大量のデータを持つ関連タスクを活用する技術である。
本稿では,手話認識における伝達学習の有効性について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign language is the primary language for people with a hearing loss. Sign
language recognition (SLR) is the automatic recognition of sign language, which
represents a challenging problem for computers, though some progress has been
made recently using deep learning. Huge amounts of data are generally required
to train deep learning models. However, corresponding datasets are missing for
the majority of sign languages. Transfer learning is a technique to utilize a
related task with an abundance of data available to help solve a target task
lacking sufficient data. Transfer learning has been applied highly successfully
in computer vision and natural language processing. However, much less research
has been conducted in the field of SLR. This paper investigates how effectively
transfer learning can be applied to isolated SLR using an inflated 3D
convolutional neural network as the deep learning architecture. Transfer
learning is implemented by pre-training a network on the American Sign Language
dataset MS-ASL and subsequently fine-tuning it separately on three different
sizes of the German Sign Language dataset SIGNUM. The results of the
experiments give clear empirical evidence that transfer learning can be
effectively applied to isolated SLR. The accuracy performances of the networks
applying transfer learning increased substantially by up to 21% as compared to
the baseline models that were not pre-trained on the MS-ASL dataset.
- Abstract(参考訳): 手話は聴覚障害を持つ人々にとって主要な言語である。
手話認識(SLR)は手話の自動認識であり、コンピュータにとって難しい問題である。
ディープラーニングモデルのトレーニングには,一般的に大量のデータが必要です。
しかし、ほとんどの手話言語では、対応するデータセットが欠落している。
転送学習は、十分なデータを持たない対象タスクを解決するのに役立つ大量のデータを持つ関連タスクを活用する技術である。
トランスファーラーニングはコンピュータビジョンと自然言語処理に非常にうまく応用されている。
しかし、SLRの分野での研究はほとんど行われていない。
本稿では,3次元畳み込みニューラルネットワークを深層学習アーキテクチャとして用いて,孤立SLRへの伝達学習の有効性について検討する。
転送学習は、アメリカ手話データセットMS-ASL上のネットワークを事前訓練し、その後、ドイツの手話データセットSIGNUMの3つの異なるサイズで微調整することで実現される。
実験の結果、移動学習が孤立SLRに効果的に適用できるという明確な実証的証拠が得られた。
転送学習を適用したネットワークの精度は,MS-ASLデータセットで事前トレーニングされていないベースラインモデルと比較して21%まで向上した。
関連論文リスト
- Deep Neural Network-Based Sign Language Recognition: A Comprehensive Approach Using Transfer Learning with Explainability [0.0]
我々は、ディープニューラルネットワークを使って手話認識を完全に自動化する新しいソリューションを提案する。
この手法は、高度な前処理方法論を統合し、全体的なパフォーマンスを最適化する。
SHAP (SHapley Additive exPlanations) 法を用いて, 情報的明瞭度の提供能力を評価した。
論文 参考訳(メタデータ) (2024-09-11T17:17:44Z) - Transfer Learning for Cross-dataset Isolated Sign Language Recognition in Under-Resourced Datasets [2.512406961007489]
時間グラフ畳み込みに基づく手話認識手法を用いて5つの教師あり移動学習手法を評価する。
特殊な教師付き転写学習法では,ファインタニングに基づく転写学習の改善が可能であることを示す。
論文 参考訳(メタデータ) (2024-03-21T16:36:40Z) - Neural Sign Actors: A diffusion model for 3D sign language production from text [51.81647203840081]
手話 (SL) は難聴者および難聴者コミュニティの主要なコミュニケーション手段である。
この研究は、現実的なニューラルサインアバターに向けて重要な一歩を踏み出し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Interpretation of Swedish Sign Language using Convolutional Neural
Networks and Transfer Learning [2.7629216089139934]
我々は、スウェーデン手話(SSL)ハンドアルファベットの記号をコンピュータが解釈できるように、畳み込みニューラルネットワーク(CNN)とトランスファーラーニングを用いている。
我々のモデルは、事前訓練されたInceptionV3ネットワークの実装と、ミニバッチ勾配勾配最適化アルゴリズムの使用から成り立っている。
モデルの最終精度は8人の被験者と9,400人の画像に基づいており、85%である。
論文 参考訳(メタデータ) (2020-10-15T15:34:09Z) - Transfer Learning for British Sign Language Modelling [0.0]
手話を含む少数言語の研究は、データ不足によって妨げられている。
これは、ある言語で開発されたモデルを第2言語でモデルを構築するための出発点として再利用するトランスファーラーニング手法の開発につながった。
本稿では,英国手話の言語モデリングにおける微調整と層置換の2つの伝達学習手法について検討する。
論文 参考訳(メタデータ) (2020-06-03T10:13:29Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z) - ASL Recognition with Metric-Learning based Lightweight Network [0.0]
本稿では,ASLジェスチャ認識のための軽量ネットワークを提案する。
トレーニングコードは、Intel OpenVINO Training Extensionsの一部として利用可能である。
論文 参考訳(メタデータ) (2020-04-10T14:41:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。