論文の概要: Implementation Of Tiny Machine Learning Models On Arduino 33 BLE For
Gesture And Speech Recognition
- arxiv url: http://arxiv.org/abs/2207.12866v1
- Date: Sat, 23 Jul 2022 10:53:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 12:36:48.353690
- Title: Implementation Of Tiny Machine Learning Models On Arduino 33 BLE For
Gesture And Speech Recognition
- Title(参考訳): Arduino 33 BLEによるジェスチャーと音声認識のためのTiny Machine Learning Modelの実装
- Authors: Viswanatha V, Ramachandra A.C, Raghavendra Prasanna, Prem Chowdary
Kakarla, Viveka Simha PJ, Nishant Mohan
- Abstract要約: 手ジェスチャー認識の実装において、TinyMLモデルは、手ジェスチャー認識のためのEdgeImpulseフレームワークからトレーニングされ、デプロイされる。
音声認識の実装において、TinyMLモデルは、音声認識のためのEdgeImpulseフレームワークから訓練され、デプロイされる。
Arduino Nano 33 BLEデバイスにはマイクが内蔵されている。
- 参考スコア(独自算出の注目度): 6.8324958655038195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this article gesture recognition and speech recognition applications are
implemented on embedded systems with Tiny Machine Learning (TinyML). It
features 3-axis accelerometer, 3-axis gyroscope and 3-axis magnetometer. The
gesture recognition,provides an innovative approach nonverbal communication. It
has wide applications in human-computer interaction and sign language. Here in
the implementation of hand gesture recognition, TinyML model is trained and
deployed from EdgeImpulse framework for hand gesture recognition and based on
the hand movements, Arduino Nano 33 BLE device having 6-axis IMU can find out
the direction of movement of hand. The Speech is a mode of communication.
Speech recognition is a way by which the statements or commands of human speech
is understood by the computer which reacts accordingly. The main aim of speech
recognition is to achieve communication between man and machine. Here in the
implementation of speech recognition, TinyML model is trained and deployed from
EdgeImpulse framework for speech recognition and based on the keywords
pronounced by human, Arduino Nano 33 BLE device having built-in microphone can
make an RGB LED glow like red, green or blue based on keyword pronounced. The
results of each application are obtained and listed in the results section and
given the analysis upon the results.
- Abstract(参考訳): 本稿では,Tiny Machine Learning (TinyML) を用いた組込みシステムにジェスチャー認識および音声認識アプリケーションを実装した。
3軸加速度計、3軸ジャイロスコープ、3軸磁気センサを備える。
ジェスチャー認識は、非言語コミュニケーションに革新的なアプローチをもたらす。
人間とコンピュータの相互作用や手話に広く応用されている。
ここで、ハンドジェスチャ認識の実装において、手ジェスチャ認識のためのedgeimpulseフレームワークからtinymlモデルをトレーニングしてデプロイし、手の動きに基づいて、6軸imuを持つarduino nano 33 bleデバイスが手の動きの方向を見出すことができる。
スピーチはコミュニケーションのモードです。
音声認識とは、人間の発話の文言やコマンドがコンピュータによって理解され、それに応じて反応する手法である。
音声認識の主な目的は,人間と機械のコミュニケーションを実現することである。
ここで音声認識の実装において、音声認識のためのedgeimpulseフレームワークからtinymlモデルをトレーニングしてデプロイし、人間によって発音されるキーワードに基づいて、マイクロホンを内蔵したarduino nano 33 bleデバイスは、キーワードの発音に基づいてrgb ledを赤、緑、青のように光らせることができる。
各アプリケーションの結果が得られ、結果セクションにリストアップされ、結果に関する分析が与えられる。
関連論文リスト
- FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである
中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。
SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文 参考訳(メタデータ) (2024-07-04T16:49:02Z) - Automatic Speech Recognition for Hindi [0.6292138336765964]
この研究は、Webアプリケーションの開発と音声認識のためのWebインターフェースの設計に関するものだった。
ウェブアプリケーションは、大量のオーディオファイルとその転写を管理し、ASR転写の人間の修正を容易にする。
音声認識用Webインターフェースは、Webアプリを実行するデバイスから16kHzのモノオーディオを記録し、音声アクティビティ検出(VAD)を行い、音声認識エンジンに音声を送信する。
論文 参考訳(メタデータ) (2024-06-26T07:39:20Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Plug-and-Play Multilingual Few-shot Spoken Words Recognition [3.591566487849146]
マルチ言語・プラグイン・アンド・プレイ型キーワードスポッティングシステムであるPLiXを提案する。
私たちの数秒のディープモデルは、20言語にまたがる数百万の1秒のオーディオクリップで学習されています。
PLiX は,1つのサポート例に限らず,新規な音声単語に一般化可能であることを示す。
論文 参考訳(メタデータ) (2023-05-03T18:58:14Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Robotic Detection of a Human-Comprehensible Gestural Language for
Underwater Multi-Human-Robot Collaboration [16.823029377470363]
本稿では,自律型水中車両(AUV)とヒトダイバーの非言語コミュニケーションを可能にする移動型ロボット通信フレームワークを提案する。
我々は,会話を観察するダイバーが容易に理解できるAUV-to-A通信のためのジェスチャー言語を設計する。
Asが別のAUVからのジェスチャーを視覚的に理解できるようにするために,自己認識機構を利用したディープネットワーク(RRCommNet)を提案する。
論文 参考訳(メタデータ) (2022-07-12T06:04:12Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Passing a Non-verbal Turing Test: Evaluating Gesture Animations
Generated from Speech [6.445605125467574]
本稿では,音声から直接ジェスチャーを生成する新しいデータ駆動手法を提案する。
本手法は,音声とジェスチャーの因果関係をモデル化するためのGAN(Generative Adversarial Neural Networks)の適用に基づく。
本研究では,仮想キャラクタ上で生成されたジェスチャをアニメーション化し,ユーザが生成したジェスチャと記録したジェスチャを区別できないことを示す。
論文 参考訳(メタデータ) (2021-07-01T19:38:43Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。