論文の概要: A Deep Learning based Wearable Healthcare IoT Device for AI-enabled
Hearing Assistance Automation
- arxiv url: http://arxiv.org/abs/2005.08076v1
- Date: Sat, 16 May 2020 19:42:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 13:58:51.559536
- Title: A Deep Learning based Wearable Healthcare IoT Device for AI-enabled
Hearing Assistance Automation
- Title(参考訳): aiを利用した聴覚支援自動化のための深層学習型ウェアラブル医療iotデバイス
- Authors: Fraser Young, L Zhang, Richard Jiang, Han Liu and Conor Wall
- Abstract要約: 本研究は、聴覚障害や聴覚障害に苦しむ人々を支援するAI対応IoT(Internet of Things)デバイスを提案する。
Googleのオンライン音声認識サービスを活用して、受信した会話をテキストに変換し、眼鏡に取り付けられたマイクロディスプレイに展開し、会話内容を聴覚障害者に表示するサーバアプリケーションを作成する。
- 参考スコア(独自算出の注目度): 6.283190933140046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the recent booming of artificial intelligence (AI), particularly deep
learning techniques, digital healthcare is one of the prevalent areas that
could gain benefits from AI-enabled functionality. This research presents a
novel AI-enabled Internet of Things (IoT) device operating from the ESP-8266
platform capable of assisting those who suffer from impairment of hearing or
deafness to communicate with others in conversations. In the proposed solution,
a server application is created that leverages Google's online speech
recognition service to convert the received conversations into texts, then
deployed to a micro-display attached to the glasses to display the conversation
contents to deaf people, to enable and assist conversation as normal with the
general population. Furthermore, in order to raise alert of traffic or
dangerous scenarios, an 'urban-emergency' classifier is developed using a deep
learning model, Inception-v4, with transfer learning to detect/recognize
alerting/alarming sounds, such as a horn sound or a fire alarm, with texts
generated to alert the prospective user. The training of Inception-v4 was
carried out on a consumer desktop PC and then implemented into the AI based IoT
application. The empirical results indicate that the developed prototype system
achieves an accuracy rate of 92% for sound recognition and classification with
real-time performance.
- Abstract(参考訳): 人工知能(AI)の最近のブーム、特にディープラーニング技術により、デジタルヘルスケアは、AI対応機能から恩恵を受ける可能性のある領域の1つである。
本研究では、ESP-8266プラットフォームから動作する新しいAI対応モノのインターネット(IoT)デバイスを提案する。
提案するソリューションでは、googleのオンライン音声認識サービスを利用して、受信した会話をテキストに変換し、グラスに取り付けられたマイクロディスプレイにデプロイし、聴覚障害者に会話内容を表示するサーバアプリケーションを作成し、一般の人々との会話を可能かつ支援する。
さらに、トラヒックや危険なシナリオの警報を発生させるため、トランスファー・ラーニングを用いたディープラーニングモデルinception-v4を用いて「都市緊急」分類器を開発し、ホーン音や火災報知機などの警報/アラーム音の検出・認識と、見込みのあるユーザに警告するテキストを生成する。
Inception-v4のトレーニングは、消費者向けデスクトップPC上で実行され、AIベースのIoTアプリケーションに実装された。
実験結果から, 試作システムでは, 音声認識とリアルタイム性能の分類において, 92%の精度を達成できた。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - MindSpeech: Continuous Imagined Speech Decoding using High-Density fNIRS and Prompt Tuning for Advanced Human-AI Interaction [0.0]
本稿では,脳とAIの直接インターフェースを開発することによって,人間とAIのインタラクションを実現する新しい手法を提案する。
我々はMindSpeechと呼ばれる新しいAIモデルについて論じる。
4名中3名に対してBLEU-1,BERT Pスコアなどの指標を有意に改善した。
論文 参考訳(メタデータ) (2024-07-25T16:39:21Z) - AIris: An AI-powered Wearable Assistive Device for the Visually Impaired [0.0]
AIを利用したウェアラブルデバイスであるAIrisを導入し、視覚障害者に環境認識とインタラクション機能を提供する。
我々は,実環境下で効果的に動作する機能プロトタイプシステムを開発した。
論文 参考訳(メタデータ) (2024-05-13T10:09:37Z) - Mediapipe and CNNs for Real-Time ASL Gesture Recognition [0.1529342790344802]
本稿では,アメリカ手話(ASL)の動きをリアルタイムに識別するシステムについて述べる。
提案手法は,特徴抽出のためのMediapipeライブラリと,ASLジェスチャー分類のための畳み込みニューラルネットワーク(CNN)を利用する。
論文 参考訳(メタデータ) (2023-05-09T09:35:45Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual
Imitation Learning [62.83590925557013]
我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。
提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。
模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-30T04:52:58Z) - Disappeared Command: Spoofing Attack On Automatic Speech Recognition
Systems with Sound Masking [2.9308762189250746]
音声インターフェースは、多くのアプリケーションやスマートデバイスの入力として、ますます広く使われている。
DNNは微妙な乱れによって容易に妨害され、音声によって制御されるインテリジェントな音声アプリケーションにとって非常に危険である誤認識を生じさせる。
論文 参考訳(メタデータ) (2022-04-19T16:26:34Z) - Building a Noisy Audio Dataset to Evaluate Machine Learning Approaches
for Automatic Speech Recognition Systems [0.0]
この研究は、ノイズの多いオーディオのデータセットを構築する過程を、干渉による劣化したオーディオの特定のケースで提示することを目的としている。
また、このようなデータを評価に利用する分類器の初期結果を示し、認識者の学習プロセスでこのデータセットを使用することの利点を示す。
論文 参考訳(メタデータ) (2021-10-04T13:08:53Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。