論文の概要: Evaluation Of Hidden Markov Models Using Deep CNN Features In Isolated
Sign Recognition
- arxiv url: http://arxiv.org/abs/2006.11183v2
- Date: Mon, 10 May 2021 13:24:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 04:50:25.883105
- Title: Evaluation Of Hidden Markov Models Using Deep CNN Features In Isolated
Sign Recognition
- Title(参考訳): 信号認識における深部CNN特徴を用いた隠れマルコフモデルの評価
- Authors: Anil Osman Tur, Hacer Yalim Keles
- Abstract要約: ビデオストリームから切り離されたサイン認識は、サインのマルチモーダルな性質のため、難しい問題である。
この問題は、最近、深層畳み込みニューラルネットワーク(CNN)ベースの機能とLong Short-Term Memory(LSTM)ベースのディープシーケンスモデルを用いて研究されている。
本研究では,3つのモジュールから構成されるフレームワークを用いて,異なるシーケンスモデルを用いた手話認識問題の解法を提案する。
- 参考スコア(独自算出の注目度): 6.320141734801679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Isolated sign recognition from video streams is a challenging problem due to
the multi-modal nature of the signs, where both local and global hand features
and face gestures needs to be attended simultaneously. This problem has
recently been studied widely using deep Convolutional Neural Network (CNN)
based features and Long Short-Term Memory (LSTM) based deep sequence models.
However, the current literature is lack of providing empirical analysis using
Hidden Markov Models (HMMs) with deep features. In this study, we provide a
framework that is composed of three modules to solve isolated sign recognition
problem using different sequence models. The dimensions of deep features are
usually too large to work with HMM models. To solve this problem, we propose
two alternative CNN based architectures as the second module in our framework,
to reduce deep feature dimensions effectively. After extensive experiments, we
show that using pretrained Resnet50 features and one of our CNN based dimension
reduction models, HMMs can classify isolated signs with 90.15% accuracy in
Montalbano dataset using RGB and Skeletal data. This performance is comparable
with the current LSTM based models. HMMs have fewer parameters and can be
trained and run on commodity computers fast, without requiring GPUs. Therefore,
our analysis with deep features show that HMMs could also be utilized as well
as deep sequence models in challenging isolated sign recognition problem.
- Abstract(参考訳): ビデオストリームからの孤立したサイン認識は、ローカルとグローバルのハンド機能とフェイスジェスチャの両方を同時に出席する必要があるサインのマルチモーダルな性質のため、難しい問題である。
この問題は近年、深層畳み込みニューラルネットワーク(CNN)ベースの機能とLong Short-Term Memory(LSTM)ベースのディープシーケンスモデルを用いて広く研究されている。
しかし、現在の文献では、深い特徴を持つ隠れマルコフモデル(HMM)を用いた経験的分析を提供していない。
本研究では,異なるシーケンスモデルを用いて,孤立した符号認識問題を解くための3つのモジュールからなる枠組みを提案する。
深い特徴の次元は通常、HMMモデルを扱うには大きすぎる。
この問題を解決するために,本フレームワークの2番目のモジュールとして,2つの代替CNNアーキテクチャを提案する。
広範にわたる実験の結果、事前訓練されたResnet50特徴とCNNに基づく次元縮小モデルを用いて、HMMは、RGBとSkeletalデータを用いて、モンタルバーノデータセットにおいて90.15%の精度で孤立標識を分類できることがわかった。
この性能は現在のLSTMモデルと同等である。
HMMはより少ないパラメータを持ち、GPUを必要とせずにコモディティコンピュータ上で高速にトレーニングおよび実行することができる。
そこで, 深部特徴を用いた解析により, HMM は孤立符号認識問題に挑戦するディープシーケンスモデルとしても利用できることを示した。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Continuous time recurrent neural networks: overview and application to
forecasting blood glucose in the intensive care unit [56.801856519460465]
連続時間自己回帰リカレントニューラルネットワーク(Continuous Time Autoregressive Recurrent Neural Network, CTRNN)は、不規則な観測を考慮に入れたディープラーニングモデルである。
重篤なケア環境下での血糖値の確率予測へのこれらのモデルの適用を実証する。
論文 参考訳(メタデータ) (2023-04-14T09:39:06Z) - A critical look at deep neural network for dynamic system modeling [0.0]
本稿では,入力出力データを用いた動的システムのモデリングにおける(深度)ニューラルネットワークの能力に疑問を呈する。
線形時間不変(LTI)力学系の同定には、2つの代表的なニューラルネットワークモデルを比較する。
LTIシステムでは、LSTMとCFNNはノイズのないケースでも一貫したモデルを提供できない。
論文 参考訳(メタデータ) (2023-01-27T09:03:05Z) - Go Beyond Multiple Instance Neural Networks: Deep-learning Models based
on Local Pattern Aggregation [0.0]
畳み込みニューラルネットワーク(CNN)は、臨床心電図(ECG)と話者非依存音声の処理においてブレークスルーをもたらした。
本稿では,局所的なパターン集約に基づくディープラーニングモデルを提案する。
LPANetと呼ばれる新しいネットワーク構造には、トリミングと集約操作が組み込まれている。
論文 参考訳(メタデータ) (2022-05-28T13:18:18Z) - TSEM: Temporally Weighted Spatiotemporal Explainable Neural Network for
Multivariate Time Series [0.0]
時系列深層学習におけるモデルに依存しない,モデル固有のアプローチを提案する。
TSEMは,多くの解釈可能性基準を満たすとともに,XCMよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2022-05-25T18:54:25Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Model Order Reduction based on Runge-Kutta Neural Network [0.0]
本研究では,各ステップにいくつかの修正を加え,3つのシミュレーションモデルによるテストによる影響について検討する。
モデル再構成ステップでは,多層型パーセプトロン(mlp)とrunge-kuttaニューラルネットワーク(rknn)の2種類のニューラルネットワークアーキテクチャを比較した。
論文 参考訳(メタデータ) (2021-03-25T13:02:16Z) - Scaling Hidden Markov Language Models [118.55908381553056]
この研究は、HMMを言語モデリングデータセットに拡張するという課題を再考する。
本研究では,HMMを大規模状態空間に拡張する手法を提案する。
論文 参考訳(メタデータ) (2020-11-09T18:51:55Z) - Hybrid-S2S: Video Object Segmentation with Recurrent Networks and
Correspondence Matching [3.9053553775979086]
ワンショットビデオオブジェクト(ワンショットビデオオブジェクト、英: One-shot Video Object、VOS)は、ビデオシーケンス内で関心のあるオブジェクトを追跡するタスクである。
本稿では,RNNをベースとしたアーキテクチャについて検討し,HS2Sというハイブリッドシーケンス・ツー・シーケンスアーキテクチャを提案する。
実験の結果,RNNを対応マッチングで拡張することはドリフト問題を低減するのに極めて有効な解であることがわかった。
論文 参考訳(メタデータ) (2020-10-10T19:00:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。