論文の概要: A CNN Based Framework for Unistroke Numeral Recognition in Air-Writing
- arxiv url: http://arxiv.org/abs/2303.07989v1
- Date: Tue, 14 Mar 2023 15:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 14:35:44.908245
- Title: A CNN Based Framework for Unistroke Numeral Recognition in Air-Writing
- Title(参考訳): エアライティングにおけるシングルストローク数認識のためのCNNフレームワーク
- Authors: Prasun Roy, Subhankar Ghosh, Umapada Pal
- Abstract要約: 本稿では,一般的なビデオカメラ支援畳み込みニューラルネットワーク(CNN)を用いた空気書き込みフレームワークを提案する。
ジェネリックビデオカメラの前に固定色のマーカーを用いてジェスチャーを行い、続いて色に基づくセグメンテーションを行い、マーカーを識別し、マーカー先端の軌跡を追跡する。
提案されたフレームワークは、英語、ベンガル語、デバナガリ数字の個人独立性評価において、97.7%、95.4%、93.7%の認識率を達成した。
- 参考スコア(独自算出の注目度): 17.426389959819538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Air-writing refers to virtually writing linguistic characters through hand
gestures in three-dimensional space with six degrees of freedom. This paper
proposes a generic video camera-aided convolutional neural network (CNN) based
air-writing framework. Gestures are performed using a marker of fixed color in
front of a generic video camera, followed by color-based segmentation to
identify the marker and track the trajectory of the marker tip. A pre-trained
CNN is then used to classify the gesture. The recognition accuracy is further
improved using transfer learning with the newly acquired data. The performance
of the system varies significantly on the illumination condition due to
color-based segmentation. In a less fluctuating illumination condition, the
system is able to recognize isolated unistroke numerals of multiple languages.
The proposed framework has achieved 97.7%, 95.4% and 93.7% recognition rates in
person independent evaluations on English, Bengali and Devanagari numerals,
respectively.
- Abstract(参考訳): エアライティング(Air-writing)とは、6自由度を持つ3次元空間で手振りで言語文字を仮想的に書くこと。
本稿では,CNNを用いた汎用ビデオカメラ支援畳み込みニューラルネットワークを提案する。
ジェネリックビデオカメラの前に固定色のマーカーを用いてジェスチャーを行い、続いて色に基づくセグメンテーションを行い、マーカーを識別し、マーカー先端の軌跡を追跡する。
その後、トレーニング済みのCNNを使用してジェスチャーを分類する。
新たに取得したデータを用いた転写学習により、認識精度をさらに向上する。
システムの性能は、色に基づくセグメンテーションによる照明条件によって大きく異なる。
変動の少ない照明条件下では、システムは複数の言語の孤立した一ストローク数字を認識できる。
提案手法は英語,ベンガル語,デヴァナガリー数字の個人別評価において97.7%,95.4%,93.7%の認識率を達成した。
関連論文リスト
- Color Equivariant Convolutional Networks [50.655443383582124]
CNNは、偶然に記録された条件によって導入された色の変化の間にデータ不均衡がある場合、苦労する。
カラースペクトル間の形状特徴共有を可能にする新しいディープラーニングビルディングブロックであるカラー等変畳み込み(CEConvs)を提案する。
CEConvsの利点は、様々なタスクに対するダウンストリーム性能と、列車-テストの分散シフトを含む色の変化に対するロバスト性の改善である。
論文 参考訳(メタデータ) (2023-10-30T09:18:49Z) - Does color modalities affect handwriting recognition? An empirical study
on Persian handwritings using convolutional neural networks [7.965705015476877]
本研究は,手書き文字と単語の色調が認識精度や速度に影響を及ぼすかどうかを検討する。
13,330個の孤立した数字と62,500個の単語をペルシャの新たな手書きデータベースから選択した。
BW桁と単語画像上のCNNは、他の2色よりも高い性能を有する。
論文 参考訳(メタデータ) (2023-07-22T19:47:52Z) - Name Your Colour For the Task: Artificially Discover Colour Naming via
Colour Quantisation Transformer [62.75343115345667]
そこで本研究では,色空間を定量化しつつ,画像上での認識を維持しつつ,色空間を定量化する新しい色量子化変換器CQFormerを提案する。
人工色システムと人間の言語における基本色用語との一貫性のある進化パターンを観察する。
我々のカラー量子化法は、画像記憶を効果的に圧縮する効率的な量子化法も提供する。
論文 参考訳(メタデータ) (2022-12-07T03:39:18Z) - Siamese based Neural Network for Offline Writer Identification on word
level data [7.747239584541488]
入力語画像に基づいて文書の著者を特定する新しい手法を提案する。
本手法はテキスト独立であり,入力画像のサイズに制約を課さない。
論文 参考訳(メタデータ) (2022-11-17T10:01:46Z) - Keypoint Message Passing for Video-based Person Re-Identification [106.41022426556776]
ビデオベースの人物再識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした、視覚監視システムにおいて重要な技術である。
既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。
本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服することを提案する。具体的には,人手指のキーポイントに位置する特徴を抽出し,時空間グラフとして接続する。
論文 参考訳(メタデータ) (2021-11-16T08:01:16Z) - Towards an IMU-based Pen Online Handwriting Recognizer [2.6707647984082357]
慣性測定単位(IMU)に基づく音声認識のためのオンライン手書き認識システムを提案する。
これは、加速度、角速度、およびBluetooth経由で流れる磁力を提供するセンサー付きペンによって得られる。
本モデルは畳み込み型LSTMネットワークと双方向型LSTMネットワークを組み合わせることで,コネクショナリストの時間的分類損失をトレーニングする。
論文 参考訳(メタデータ) (2021-05-26T09:47:19Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - Convolutional Neural Network Array for Sign Language Recognition using
Wearable IMUs [0.0]
本研究は,インド手話からの記号認識のための一次元畳み込みニューラルネットワーク(CNN)アレイアーキテクチャを提案する。
IMU装置を用いて記録された信号は、一般文や疑問文の署名に対応するかどうかなどの文脈に基づいて分離される。
論文 参考訳(メタデータ) (2020-04-21T23:11:04Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。