論文の概要: Efficient sign language recognition system and dataset creation method
based on deep learning and image processing
- arxiv url: http://arxiv.org/abs/2103.12233v1
- Date: Mon, 22 Mar 2021 23:36:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 03:38:21.880570
- Title: Efficient sign language recognition system and dataset creation method
based on deep learning and image processing
- Title(参考訳): ディープラーニングと画像処理に基づく効率的な手話認識システムおよびデータセット作成方法
- Authors: Alvaro Leandro Cavalcante Carneiro, Lucas de Brito Silva, Denis
Henrique Pinheiro Salvedeo
- Abstract要約: 本研究では,手話データセットを効果的に作成できるデジタル画像処理と機械学習の技術について検討する。
仮説をテストするために異なるデータセットが作成され、毎日14の単語が使われ、rgbカラーシステムで異なるスマートフォンによって記録された。
テストセットでは96.38%,検証セットでは81.36%の精度で,より困難な条件が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: New deep-learning architectures are created every year, achieving
state-of-the-art results in image recognition and leading to the belief that,
in a few years, complex tasks such as sign language translation will be
considerably easier, serving as a communication tool for the hearing-impaired
community. On the other hand, these algorithms still need a lot of data to be
trained and the dataset creation process is expensive, time-consuming, and
slow. Thereby, this work aims to investigate techniques of digital image
processing and machine learning that can be used to create a sign language
dataset effectively. We argue about data acquisition, such as the frames per
second rate to capture or subsample the videos, the background type,
preprocessing, and data augmentation, using convolutional neural networks and
object detection to create an image classifier and comparing the results based
on statistical tests. Different datasets were created to test the hypotheses,
containing 14 words used daily and recorded by different smartphones in the RGB
color system. We achieved an accuracy of 96.38% on the test set and 81.36% on
the validation set containing more challenging conditions, showing that 30 FPS
is the best frame rate subsample to train the classifier, geometric
transformations work better than intensity transformations, and artificial
background creation is not effective to model generalization. These trade-offs
should be considered in future work as a cost-benefit guideline between
computational cost and accuracy gain when creating a dataset and training a
sign recognition model.
- Abstract(参考訳): 新しいディープラーニングアーキテクチャは毎年作成され、画像認識の最先端の成果を達成し、数年のうちに手話翻訳のような複雑なタスクが大幅に簡単になり、聴覚障害者コミュニティのコミュニケーションツールとして機能する、という信念につながります。
一方で、これらのアルゴリズムは、トレーニングに必要な多くのデータを必要とし、データセット作成プロセスは高価で、時間がかかり、遅くなります。
そこで本研究では,手話データセットを効果的に作成するためのデジタル画像処理と機械学習の手法を検討することを目的とする。
我々は、畳み込みニューラルネットワークとオブジェクト検出を用いて、ビデオ、バックグラウンドタイプ、前処理、データ拡張をキャプチャまたはサブサンプリングするための秒単位のフレームなどのデータ取得について論じ、画像分類器を作成し、統計的テストに基づいて結果を比較する。
仮説をテストするために異なるデータセットが作成され、毎日14の単語が使われ、rgbカラーシステムで異なるスマートフォンによって記録された。
テストセットで96.38%,より困難な条件を含む検証セットで81.36%の精度を達成し,30fpsが分類器を訓練する最良フレームレートサブサンプルであり,幾何学的変換は強度変換よりもうまく動作し,人工的背景生成は一般化のモデル化には有効ではないことを示した。
これらのトレードオフは、データセットを作成してサイン認識モデルのトレーニングを行う際の計算コストと精度ゲインの間のコスト便益ガイドラインとして、今後の作業で考慮すべきである。
関連論文リスト
- Deep Image Composition Meets Image Forgery [0.0]
画像偽造は長年研究されてきた。
ディープラーニングモデルは、トレーニングのために大量のラベル付きデータを必要とする。
本研究では,画像合成深層学習モデルを用いて,実生活における操作の質に近いスプライシング画像を生成する。
論文 参考訳(メタデータ) (2024-04-03T17:54:37Z) - Learning from Models and Data for Visual Grounding [55.21937116752679]
データ駆動学習と様々な大規模事前学習モデルからの知識伝達を組み合わせたフレームワークであるSynGroundを紹介する。
マスク注意目的を最適化することにより、トレーニング済みの視覚・言語モデルをこのデータセット上に微調整する。
得られたモデルは、既成のビジョン・アンド・ランゲージモデルの接地能力を向上する。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Text recognition on images using pre-trained CNN [2.191505742658975]
認識はChars74Kデータセットを使用してトレーニングされ、最高のモデル結果はIIIT-5K-Datasetのサンプルでテストされる。
検証データには97.94%、テストデータには98.16%、IIIT-5K-Datasetには95.62%の精度がある。
論文 参考訳(メタデータ) (2023-02-10T08:09:51Z) - Procedural Image Programs for Representation Learning [62.557911005179946]
我々は,2万プログラムからなる大規模なデータセットを用いて,多様な合成画像を生成する訓練を提案する。
これらのプログラムは短いコードスニペットであり、変更が容易で、高速に実行することができる。
提案したデータセットは、教師付きおよび教師なしの表現学習の両方に使用することができ、実際の画像と手続き的に生成された画像との事前学習のギャップを38%削減する。
論文 参考訳(メタデータ) (2022-11-29T17:34:22Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - Single Image Texture Translation for Data Augmentation [24.412953581659448]
本稿では,ソーステクスチャの単一入力に基づいて,テクスチャを画像に翻訳する軽量モデルを提案する。
次に、長い尾と少数ショットの画像分類タスクにおける拡張データの利用について検討する。
提案手法は,入力データを対象領域に翻訳し,一貫した画像認識性能の向上を実現する。
論文 参考訳(メタデータ) (2021-06-25T17:59:04Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - PennSyn2Real: Training Object Recognition Models without Human Labeling [12.923677573437699]
我々はPennSyn2Realを提案する。20種類以上のマイクロエアロビー(MAV)の10万以上の4K画像からなる合成データセットである。
このデータセットは、MAV検出や分類などのハイレベルコンピュータビジョンタスクのための任意の数のトレーニングイメージを生成するために使用することができる。
このフレームワークを用いて生成された合成データは,検出やセグメンテーションといった一般的なオブジェクト認識タスクに対して,CNNモデルをトレーニングするために直接利用できることを示す。
論文 参考訳(メタデータ) (2020-09-22T02:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。