論文の概要: Edge-Based Speech Transcription and Synthesis for Kinyarwanda and Swahili Languages
- arxiv url: http://arxiv.org/abs/2510.16497v1
- Date: Sat, 18 Oct 2025 13:33:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.013491
- Title: Edge-Based Speech Transcription and Synthesis for Kinyarwanda and Swahili Languages
- Title(参考訳): Kinyarwanda 言語と Swahili 言語のエッジベース音声転写と合成
- Authors: Pacome Simon Mbonimpa, Diane Tuyizere, Azizuddin Ahmed Biyabani, Ozan K. Tonguz,
- Abstract要約: 本稿では,エッジクラウド並列性を利用した音声の書き起こしと合成のための新しい枠組みを提案する。
Kinyarwanda と Swahili 話者のための強力な言語処理ツールの不足に対処する。
提案したカスケードエッジクラウドアーキテクチャは, STT と TTS の転写において, 優れたプラットフォームとなることが示唆された。
- 参考スコア(独自算出の注目度): 0.5669790037378093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a novel framework for speech transcription and synthesis, leveraging edge-cloud parallelism to enhance processing speed and accessibility for Kinyarwanda and Swahili speakers. It addresses the scarcity of powerful language processing tools for these widely spoken languages in East African countries with limited technological infrastructure. The framework utilizes the Whisper and SpeechT5 pre-trained models to enable speech-to-text (STT) and text-to-speech (TTS) translation. The architecture uses a cascading mechanism that distributes the model inference workload between the edge device and the cloud, thereby reducing latency and resource usage, benefiting both ends. On the edge device, our approach achieves a memory usage compression of 9.5% for the SpeechT5 model and 14% for the Whisper model, with a maximum memory usage of 149 MB. Experimental results indicate that on a 1.7 GHz CPU edge device with a 1 MB/s network bandwidth, the system can process a 270-character text in less than a minute for both speech-to-text and text-to-speech transcription. Using real-world survey data from Kenya, it is shown that the cascaded edge-cloud architecture proposed could easily serve as an excellent platform for STT and TTS transcription with good accuracy and response time.
- Abstract(参考訳): 本稿では,Kinyarwanda と Swahili 話者の処理速度とアクセシビリティを向上させるために,エッジクラウド並列性を活用した音声の書き起こしと合成のための新しいフレームワークを提案する。
技術基盤が限られている東アフリカ諸国において、これらの広く話されている言語に対する強力な言語処理ツールの不足に対処する。
このフレームワークは、WhisperとSpeechT5の事前訓練モデルを使用して、音声テキスト(STT)とテキスト音声(TTS)の翻訳を可能にする。
このアーキテクチャでは、モデル推論のワークロードをエッジデバイスとクラウドに分散するカスケーディング機構を使用して、レイテンシとリソース使用量の削減を実現し、両端のメリットを享受する。
エッジデバイスでは,SpeechT5モデルでは9.5%,Whisperモデルでは14%,最大メモリ使用量は129MBである。
実験結果によると、1.7GHzのCPUエッジデバイスで1MB/sの帯域幅を持つ場合、音声-テキスト/テキスト-音声の両書き起こしに1分以内で270文字のテキストを処理できることが示唆された。
ケニアの実態調査データを用いて,提案したエッジクラウドアーキテクチャは,精度と応答時間に優れたSTTおよびTTS転写のための優れたプラットフォームとして容易に機能することを示した。
関連論文リスト
- GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement [36.29371629234269]
GigaSpeech 2は大規模多言語音声認識コーパスである。
タイ語、インドネシア語、ベトナム語を含む約3万時間の音声が自動で書き起こされる。
論文 参考訳(メタデータ) (2024-06-17T13:44:20Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - EfficientSpeech: An On-Device Text to Speech Model [15.118059441365343]
State of the Art (SOTA) Neural Text to Speech (TTS)モデルでは、自然な音声合成音声を生成することができる。
本研究では,ARM CPU上で音声をリアルタイムに合成するEfficientSpeechという,効率的なニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T10:28:41Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Transfer Learning Framework for Low-Resource Text-to-Speech using a
Large-Scale Unlabeled Speech Corpus [10.158584616360669]
テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。
本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T11:26:56Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。