論文の概要: Luganda Speech Intent Recognition for IoT Applications
- arxiv url: http://arxiv.org/abs/2405.19343v1
- Date: Thu, 16 May 2024 10:14:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-02 14:20:20.421645
- Title: Luganda Speech Intent Recognition for IoT Applications
- Title(参考訳): IoTアプリケーションのためのLuganda音声インテント認識
- Authors: Andrew Katumba, Sudi Murindanyi, John Trevor Kasule, Elvis Mugume,
- Abstract要約: この研究プロジェクトは、IoTアプリケーションのためのLuganda音声意図分類システムを開発することを目的としている。
このプロジェクトはRaspberry Pi、Wio Terminal、ESP32ノードなどのハードウェアコンポーネントをマイクロコントローラとして使用している。
この研究の最終的な目的は、Raspberry Pi上にデプロイされた自然言語処理(NLP)モデルを通じて達成されたLugandaを使用した音声制御を可能にすることである。
- 参考スコア(独自算出の注目度): 0.3374875022248865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of Internet of Things (IoT) technology has generated massive interest in voice-controlled smart homes. While many voice-controlled smart home systems are designed to understand and support widely spoken languages like English, speakers of low-resource languages like Luganda may need more support. This research project aimed to develop a Luganda speech intent classification system for IoT applications to integrate local languages into smart home environments. The project uses hardware components such as Raspberry Pi, Wio Terminal, and ESP32 nodes as microcontrollers. The Raspberry Pi processes Luganda voice commands, the Wio Terminal is a display device, and the ESP32 nodes control the IoT devices. The ultimate objective of this work was to enable voice control using Luganda, which was accomplished through a natural language processing (NLP) model deployed on the Raspberry Pi. The NLP model utilized Mel Frequency Cepstral Coefficients (MFCCs) as acoustic features and a Convolutional Neural Network (Conv2D) architecture for speech intent classification. A dataset of Luganda voice commands was curated for this purpose and this has been made open-source. This work addresses the localization challenges and linguistic diversity in IoT applications by incorporating Luganda voice commands, enabling users to interact with smart home devices without English proficiency, especially in regions where local languages are predominant.
- Abstract(参考訳): IoT(Internet of Things)技術の出現は、音声制御によるスマートホームへの大きな関心を呼び起こした。
多くの音声制御スマートホームシステムは、英語のような広く話されている言語を理解し、サポートするために設計されているが、Lugandaのような低リソース言語の話者は、より多くのサポートを必要としているかもしれない。
本研究プロジェクトは、スマートホーム環境にローカル言語を統合するためのIoTアプリケーションのためのLuganda音声意図分類システムを開発することを目的としている。
このプロジェクトはRaspberry Pi、Wio Terminal、ESP32ノードなどのハードウェアコンポーネントをマイクロコントローラとして使用している。
Raspberry PiはLuganda音声コマンドを処理し、Wio Terminalはディスプレイデバイスであり、ESP32ノードはIoTデバイスを制御する。
この研究の最終的な目的は、Raspberry Pi上にデプロイされた自然言語処理(NLP)モデルを通じて達成されたLugandaを使用した音声制御を可能にすることである。
NLPモデルは、Mel Frequency Cepstral Coefficients (MFCCs) を音響的特徴として用い、畳み込みニューラルネットワーク(Conv2D)アーキテクチャを音声意図分類に用いた。
この目的でLuganda音声コマンドのデータセットがキュレーションされ、オープンソースになった。
この研究は、Luganda音声コマンドを組み込むことで、IoTアプリケーションにおけるローカライゼーションの課題と言語多様性に対処する。
関連論文リスト
- FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである
中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。
SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文 参考訳(メタデータ) (2024-07-04T16:49:02Z) - Seamless: Multilingual Expressive and Streaming Speech Translation [71.12826355107889]
本稿では,エンドツーエンドの表現型および多言語翻訳をストリーミング形式で実現するモデル群を紹介する。
まず,多言語およびマルチモーダルのSeamlessM4Tモデル-SeamlessM4T v2の改良版をコントリビュートする。
SeamlessExpressiveとSeamlessStreamingの主なコンポーネントをまとめてSeamlessを作ります。
論文 参考訳(メタデータ) (2023-12-08T17:18:42Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Plug-and-Play Multilingual Few-shot Spoken Words Recognition [3.591566487849146]
マルチ言語・プラグイン・アンド・プレイ型キーワードスポッティングシステムであるPLiXを提案する。
私たちの数秒のディープモデルは、20言語にまたがる数百万の1秒のオーディオクリップで学習されています。
PLiX は,1つのサポート例に限らず,新規な音声単語に一般化可能であることを示す。
論文 参考訳(メタデータ) (2023-05-03T18:58:14Z) - Implementation Of Tiny Machine Learning Models On Arduino 33 BLE For
Gesture And Speech Recognition [6.8324958655038195]
手ジェスチャー認識の実装において、TinyMLモデルは、手ジェスチャー認識のためのEdgeImpulseフレームワークからトレーニングされ、デプロイされる。
音声認識の実装において、TinyMLモデルは、音声認識のためのEdgeImpulseフレームワークから訓練され、デプロイされる。
Arduino Nano 33 BLEデバイスにはマイクが内蔵されている。
論文 参考訳(メタデータ) (2022-07-23T10:53:26Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Romanian Speech Recognition Experiments from the ROBIN Project [0.21485350418225244]
本稿では,高速(ネットワーク自体から100ms未満のレイテンシ)に焦点をあてたディープニューラルネットワークを用いた音声認識実験について述べる。
重要な特徴の1つは低レイテンシであるが、最終的なディープニューラルネットワークモデルは、ルーマニア語を認識するための技術結果の状態を達成している。
論文 参考訳(メタデータ) (2021-11-23T17:35:00Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - Neural Machine Translation for Multilingual Grapheme-to-Phoneme
Conversion [13.543705472805431]
複数の言語で同じエンコーダとデコーダを共有する単一エンドツーエンドのニューラルネットワークG2Pモデルを提案する。
その結果,低リソース言語に対する音素誤り率の平均は7.2%向上し,単言語ベースラインと比較して高いリソースエラー率が得られなかった。
論文 参考訳(メタデータ) (2020-06-25T06:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。