論文の概要: Live American Sign Language Letter Classification with Convolutional
Neural Networks
- arxiv url: http://arxiv.org/abs/2305.17192v1
- Date: Fri, 26 May 2023 18:29:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 21:33:54.102432
- Title: Live American Sign Language Letter Classification with Convolutional
Neural Networks
- Title(参考訳): 畳み込みニューラルネットワークを用いたライブアメリカン手話文字分類
- Authors: Kyle Boone, Ben Wurster, Seth Thao, and Yu Hen Hu
- Abstract要約: このプロジェクトは、特にライブビデオフィードの範囲内で、画像中のASL文字を認識できるニューラルネットワークの構築を中心にしている。
畳み込みネットワークとVGG16転送学習アプローチが異なるバックグラウンド設定で一般化できなかった場合、最初のテスト結果は期待に届かなかった。
その後、トレーニング済みの手関節検出モデルが採用され、生成された関節位置が完全に接続されたニューラルネットワークに入力される。
- 参考スコア(独自算出の注目度): 4.920817773181234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This project is centered around building a neural network that is able to
recognize ASL letters in images, particularly within the scope of a live video
feed. Initial testing results came up short of expectations when both the
convolutional network and VGG16 transfer learning approaches failed to
generalize in settings of different backgrounds. The use of a pre-trained hand
joint detection model was then adopted with the produced joint locations being
fed into a fully-connected neural network. The results of this approach
exceeded those of prior methods and generalized well to a live video feed
application.
- Abstract(参考訳): このプロジェクトは、特にライブビデオフィードの範囲内で、画像中のASL文字を認識できるニューラルネットワークの構築を中心にしている。
畳み込みネットワークとVGG16転送学習アプローチが異なるバックグラウンド設定で一般化できなかった場合、最初のテスト結果は期待に届かなかった。
その後、トレーニング済みの手関節検出モデルが採用され、生成された関節位置が完全に接続されたニューラルネットワークに入力される。
このアプローチの結果は、以前の方法よりも優れており、ライブビデオフィードアプリケーションによく適用されている。
関連論文リスト
- On the universality of neural encodings in CNNs [5.064404027153094]
学習された固有ベクトルは、VGG型ネットワークの様々な層に対して、異なる自然画像データセットにまたがって普遍的であることを示す。
彼らは、より基本的なレベルで、トランスファーラーニングの成功を説明する。
論文 参考訳(メタデータ) (2024-09-28T21:30:25Z) - Video Scene Location Recognition with Neural Networks [0.0]
本稿では,連続する撮影箇所の少ない映像系列からのシーン認識の可能性について考察する。
提案手法の基本的な考え方は、各シーンからフレームのセットを選択し、トレーニング済みの単一イメージ前処理畳み込みネットワークでそれらを変換し、その後のニューラルネットワークの層とシーンの位置を分類することである。
我々は、個々のフレーム、特にAveragePooling、MaxPooling、Product、Flatten、LSTM、Bidirectional LSTMレイヤを組み合わせるために、異なるニューラルネットワーク層を調査した。
論文 参考訳(メタデータ) (2023-09-21T09:42:39Z) - Decoupled Mixup for Generalized Visual Recognition [71.13734761715472]
視覚認識のためのCNNモデルを学習するための新しい「デカップリング・ミクスアップ」手法を提案する。
本手法は,各画像を識別領域と雑音発生領域に分離し,これらの領域を均一に組み合わせてCNNモデルを訓練する。
実験結果から,未知のコンテキストからなるデータに対する本手法の高一般化性能を示す。
論文 参考訳(メタデータ) (2022-10-26T15:21:39Z) - Neural Maximum A Posteriori Estimation on Unpaired Data for Motion
Deblurring [87.97330195531029]
本稿では、ニューラルネットワークをトレーニングし、失明したデータから視覚情報や鋭いコンテンツを復元するためのニューラルネットワークの最大Aポストエリオリ(NeurMAP)推定フレームワークを提案する。
提案されたNeurMAPは、既存のデブロアリングニューラルネットワークに対するアプローチであり、未使用データセット上のイメージデブロアリングネットワークのトレーニングを可能にする最初のフレームワークである。
論文 参考訳(メタデータ) (2022-04-26T08:09:47Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Dynamic Gesture Recognition [0.0]
従来のコンピュータビジョンアルゴリズムの代わりに、機械学習を使って画像や動画を分類することができる。
このプロジェクトの目的は、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の共生を構築することである。
論文 参考訳(メタデータ) (2021-09-20T09:45:29Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - A Study On the Effects of Pre-processing On Spatio-temporal Action
Recognition Using Spiking Neural Networks Trained with STDP [0.0]
ビデオ分類タスクにおいて,教師なし学習手法で訓練したSNNの行動を研究することが重要である。
本稿では,時間情報を静的な形式に変換し,遅延符号化を用いて視覚情報をスパイクに変換する手法を提案する。
スパイクニューラルネットワークを用いた行動認識における行動の形状と速度の類似性の効果を示す。
論文 参考訳(メタデータ) (2021-05-31T07:07:48Z) - Local Critic Training for Model-Parallel Learning of Deep Neural
Networks [94.69202357137452]
そこで我々は,局所的批判訓練と呼ばれる新しいモデル並列学習手法を提案する。
提案手法は,畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の両方において,階層群の更新プロセスの分離に成功したことを示す。
また,提案手法によりトレーニングされたネットワークを構造最適化に利用できることを示す。
論文 参考訳(メタデータ) (2021-02-03T09:30:45Z) - Training Convolutional Neural Networks With Hebbian Principal Component
Analysis [10.026753669198108]
ヘブリアン学習は、ニューラルネットワークの下層または高層を訓練するために使用することができる。
私たちは、HWTA(Hebbian Winner Takes All)戦略の代わりに、非線形のHebbianプリンシパルコンポーネント分析(HPCA)学習ルールを使用します。
特にHPCAルールは、CIFAR-10イメージデータセットから関連する特徴を抽出するために、畳み込みニューラルネットワークのトレーニングに使用される。
論文 参考訳(メタデータ) (2020-12-22T18:17:46Z) - Video-based Facial Expression Recognition using Graph Convolutional
Networks [57.980827038988735]
我々は、ビデオベースの表情認識のための共通のCNN-RNNモデルに、GCN(Graph Convolutional Network)層を導入する。
我々は、CK+、Oulu-CASIA、MMIの3つの広く使われているデータセットと、AFEW8.0の挑戦的なワイルドデータセットについて、本手法の評価を行った。
論文 参考訳(メタデータ) (2020-10-26T07:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。