論文の概要: Hello Afrika: Speech Commands in Kinyarwanda
- arxiv url: http://arxiv.org/abs/2507.01024v1
- Date: Mon, 16 Jun 2025 16:30:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.417016
- Title: Hello Afrika: Speech Commands in Kinyarwanda
- Title(参考訳): ハロー・アフリカ:キヤルワンダの音声コマンド
- Authors: George Igwegbe, Martins Awojide, Mboh Bless, Nirel Kadzo,
- Abstract要約: アフリカの言語には音声コマンドモデルのデジェスがあります。
Hello Afrikaはこの問題に対処することを目的としており、最初のイテレーションはKinyarwanda言語に焦点を当てている。
このモデルは、一般的な指示、数字、ウェイクワードで構成されたカスタム音声コマンドコーパスから構築された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice or Speech Commands are a subset of the broader Spoken Word Corpus of a language which are essential for non-contact control of and activation of larger AI systems in devices used in everyday life especially for persons with disabilities. Currently, there is a dearth of speech command models for African languages. The Hello Afrika project aims to address this issue and its first iteration is focused on the Kinyarwanda language since the country has shown interest in developing speech recognition technologies culminating in one of the largest datasets on Mozilla Common Voice. The model was built off a custom speech command corpus made up of general directives, numbers, and a wake word. The final model was deployed on multiple devices (PC, Mobile Phone and Edge Devices) and the performance was assessed using suitable metrics.
- Abstract(参考訳): 音声または音声コマンド(Voice or Speech Commands)は、特に障害者の日常生活で使用される装置において、より大きなAIシステムの非接触制御と活性化に不可欠な言語である、幅広い音声ワードコーパスのサブセットである。
現在、アフリカの言語には音声コマンドモデルのデジェスがある。
Hello Afrikaプロジェクトはこの問題に対処することを目的としており、最初のイテレーションはKinyarwanda言語に焦点を当てている。
このモデルは、一般的な指示、数字、ウェイクワードで構成されたカスタム音声コマンドコーパスから構築された。
最終モデルは複数のデバイス(PC、携帯電話、エッジデバイス)にデプロイされ、パフォーマンスは適切なメトリクスを使用して評価された。
関連論文リスト
- Long-Form Speech Generation with Spoken Language Models [64.29591880693468]
SpeechSSMは、テキスト中間子なしで1つの復号セッションで長い形式の音声を学習し、サンプリングする。
新しい埋め込みベースとLLM-judgedメトリクス、長さと時間による品質測定、長文音声処理と生成のための新しいベンチマークであるLibriSpeech-Long。
論文 参考訳(メタデータ) (2024-12-24T18:56:46Z) - Luganda Speech Intent Recognition for IoT Applications [0.3374875022248865]
この研究プロジェクトは、IoTアプリケーションのためのLuganda音声意図分類システムを開発することを目的としている。
このプロジェクトはRaspberry Pi、Wio Terminal、ESP32ノードなどのハードウェアコンポーネントをマイクロコントローラとして使用している。
この研究の最終的な目的は、Raspberry Pi上にデプロイされた自然言語処理(NLP)モデルを通じて達成されたLugandaを使用した音声制御を可能にすることである。
論文 参考訳(メタデータ) (2024-05-16T10:14:00Z) - Direct Punjabi to English speech translation using discrete units [4.883313216485195]
本稿では,Punjabi という言語を英語に翻訳する手法を提案する。
また、トランスフォーマーに基づく翻訳モデルへの入力として、離散音響単位と呼ばれる音声の離散表現を用いた場合の性能についても検討する。
以上の結果から,U2UTモデルは3.69BLEUスコアによるS2UTモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-25T03:03:34Z) - AnnoTheia: A Semi-Automatic Annotation Toolkit for Audio-Visual Speech
Technologies [0.0]
本稿では,シーンとそれに対応する書き起こしを検知するセミオートマチックなアノテーションツールキットAnnoTheiaを提案する。
興味のある言語のためのAnnoTheia作成の完全なプロセスを示すために,スペイン語に対するアクティブ話者検出のための事前学習モデルの適応についても述べる。
論文 参考訳(メタデータ) (2024-02-20T17:07:08Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Plug-and-Play Multilingual Few-shot Spoken Words Recognition [3.591566487849146]
マルチ言語・プラグイン・アンド・プレイ型キーワードスポッティングシステムであるPLiXを提案する。
私たちの数秒のディープモデルは、20言語にまたがる数百万の1秒のオーディオクリップで学習されています。
PLiX は,1つのサポート例に限らず,新規な音声単語に一般化可能であることを示す。
論文 参考訳(メタデータ) (2023-05-03T18:58:14Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - Using Radio Archives for Low-Resource Speech Recognition: Towards an
Intelligent Virtual Assistant for Illiterate Users [3.3946853660795884]
多くの国では、低リソース言語のみを話す傾向があります。
ノイズの多いラジオ放送アーカイブにおける教師なし音声表現学習の有効性を検討する。
我々の貢献は、倫理的AI研究がデジタル分割によって最も不利な人々のニーズを満たすための道のりを提供する。
論文 参考訳(メタデータ) (2021-04-27T10:09:34Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - Speaker Independent and Multilingual/Mixlingual Speech-Driven Talking
Head Generation Using Phonetic Posteriorgrams [58.617181880383605]
そこで本研究では,音声後部グラフを用いた新しい手法を提案する。
我々の手法は手作りの特徴を必要とせず、近年の手法に比べてノイズに強い。
本モデルは,複数言語/混合言語音声を説得力のある入力としてサポートした最初のモデルである。
論文 参考訳(メタデータ) (2020-06-20T16:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。