論文の概要: Dynamic Gesture Recognition
- arxiv url: http://arxiv.org/abs/2109.09396v1
- Date: Mon, 20 Sep 2021 09:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 02:19:14.907377
- Title: Dynamic Gesture Recognition
- Title(参考訳): 動的ジェスチャー認識
- Authors: Jonas Bokstaller and Costanza Maria Improta
- Abstract要約: 従来のコンピュータビジョンアルゴリズムの代わりに、機械学習を使って画像や動画を分類することができる。
このプロジェクトの目的は、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の共生を構築することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Human-Machine Interaction (HMI) researchfield is an important topic in
machine learning that has beendeeply investigated thanks to the rise of
computing power in thelast years. The first time, it is possible to use machine
learningto classify images and/or videos instead of the traditionalcomputer
vision algorithms. The aim of this project is to builda symbiosis between a
convolutional neural network (CNN)[1] and a recurrent neural network (RNN) [2]
to recognizecultural/anthropological Italian sign language gestures fromvideos.
The CNN extracts important features that later areused by the RNN. With RNNs we
are able to store temporalinformation inside the model to provide contextual
informationfrom previous frames to enhance the prediction accuracy. Ournovel
approach uses different data augmentation techniquesand regularization methods
from only RGB frames to avoidoverfitting and provide a small generalization
error.
- Abstract(参考訳): ヒューマン・マシン・インタラクション(hmi)研究分野は機械学習の重要なトピックであり、近年のコンピューティングパワーの高まりによって深く研究されている。
機械学習を使って従来のコンピュータビジョンアルゴリズムの代わりに、画像や動画を分類することができる。
本研究の目的は、コンボリューショナルニューラルネットワーク(CNN)[1]とリカレントニューラルネットワーク(RNN)[2]間の共生を構築し、ビデオからの文化的・人類学的イタリア手話のジェスチャーを認識することである。
CNNは後にRNNによって使用される重要な特徴を抽出する。
RNNでは、時間情報をモデル内に格納して、以前のフレームからコンテキスト情報を提供し、予測精度を高めることができます。
Ournovelアプローチでは、RGBフレームのみから異なるデータ拡張手法と正規化手法を使用してオーバーフィッティングを回避し、小さな一般化誤差を提供する。
関連論文リスト
- Deep Neural Networks in Video Human Action Recognition: A Review [21.00217656391331]
映像行動認識はコンピュータビジョンの最も基本的なタスクの1つである。
ディープニューラルネットワークは、RGB、RGB-D、光学フローフォーマットなどの画像のようなピクセルレベルの情報を認識するために構築されている。
本稿では,深層ニューラルネットワークの性能が,特徴学習および抽出タスクにおけるほとんどの技術を上回った。
論文 参考訳(メタデータ) (2023-05-25T03:54:41Z) - Comparison Analysis of Traditional Machine Learning and Deep Learning
Techniques for Data and Image Classification [62.997667081978825]
本研究の目的は、コンピュータビジョン2次元オブジェクト分類タスクに使用される最も一般的な機械学習およびディープラーニング技術を分析し比較することである。
まず、視覚語モデルと深部畳み込みニューラルネットワーク(DCNN)の理論的背景を示す。
次に、Bag of Visual Wordsモデル、VGG16 CNN Architectureを実装します。
論文 参考訳(メタデータ) (2022-04-11T11:34:43Z) - Predictive Coding: Towards a Future of Deep Learning beyond
Backpropagation? [41.58529335439799]
ディープニューラルネットワークのトレーニングに使用されるエラーアルゴリズムのバックプロパゲーションは、ディープラーニングの成功に不可欠である。
最近の研究は、このアイデアを、局所的な計算だけでニューラルネットワークを訓練できる汎用アルゴリズムへと発展させた。
等価ディープニューラルネットワークに対する予測符号化ネットワークの柔軟性が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-02-18T22:57:03Z) - Visualising and Explaining Deep Learning Models for Speech Quality
Prediction [0.0]
本稿では,非侵入的音声品質予測モデルであるNISQAについて分析する。
畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)から構成される。
論文 参考訳(メタデータ) (2021-12-12T12:50:03Z) - CondenseNeXt: An Ultra-Efficient Deep Neural Network for Embedded
Systems [0.0]
畳み込みニューラルネットワーク(英: Convolutional Neural Network, CNN)は、画像センサが捉えた視覚画像の分析に広く用いられているディープニューラルネットワーク(DNN)のクラスである。
本稿では,組込みシステム上でのリアルタイム推論のために,既存のCNNアーキテクチャの性能を改善するために,深層畳み込みニューラルネットワークアーキテクチャの新しい変種を提案する。
論文 参考訳(メタデータ) (2021-12-01T18:20:52Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - Overcoming Catastrophic Forgetting in Graph Neural Networks [50.900153089330175]
破滅的な忘れは、ニューラルネットワークが新しいタスクを学ぶ前に学んだ知識を「忘れる」傾向を指します。
本稿では,この問題を克服し,グラフニューラルネットワーク(GNN)における継続学習を強化するための新しいスキームを提案する。
私たちのアプローチの中心には、トポロジ認識重量保存(TWP)と呼ばれる汎用モジュールがあります。
論文 参考訳(メタデータ) (2020-12-10T22:30:25Z) - A Practical Tutorial on Graph Neural Networks [49.919443059032226]
グラフニューラルネットワーク(GNN)は、人工知能(AI)分野において最近人気が高まっている。
このチュートリアルでは、GNNのパワーとノベルティをAI実践者に公開している。
論文 参考訳(メタデータ) (2020-10-11T12:36:17Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z) - On the Effectiveness of Neural Text Generation based Data Augmentation
for Recognition of Morphologically Rich Speech [0.0]
我々は、RNNLMからの知識をテキスト生成に基づくデータ拡張による単一パスBNLMに転送することで、会話音声書き起こしシステムのオンライン性能を大幅に改善した。
第1パスでRNN-BNLMを使用し、第2パスで、オフラインのASR結果をさらに改善できることが示される。
論文 参考訳(メタデータ) (2020-06-09T09:01:04Z) - Visual Commonsense R-CNN [102.5061122013483]
本稿では,新しい教師なし特徴表現学習手法であるVisual Commonsense Region-based Convolutional Neural Network (VC R-CNN)を提案する。
VC R-CNNは、キャプションやVQAのような高レベルのタスクのための改善された視覚領域エンコーダとして機能する。
我々は、画像キャプション、VQA、VCRの3つの一般的なタスクのモデルにおいて、VC R-CNNの機能を広く適用し、それら全体で一貫したパフォーマンス向上を観察する。
論文 参考訳(メタデータ) (2020-02-27T15:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。