論文の概要: BanglaTalk: Towards Real-Time Speech Assistance for Bengali Regional Dialects
- arxiv url: http://arxiv.org/abs/2510.06188v1
- Date: Tue, 07 Oct 2025 17:47:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.401103
- Title: BanglaTalk: Towards Real-Time Speech Assistance for Bengali Regional Dialects
- Title(参考訳): BanglaTalk:ベンガル方言のリアルタイム音声支援を目指して
- Authors: Jakir Hasan, Shubhashis Roy Dipta,
- Abstract要約: バングラTalkはベンガル地方方言の最初のリアルタイム音声支援システムである。
BanglaTalkはクライアントサーバアーキテクチャに従い、低レイテンシ通信を保証するためにリアルタイムトランスポートプロトコル(RTP)を使用する。
24kbpsの低帯域で動作でき、平均的なエンドツーエンド遅延は4.9秒である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time speech assistants are becoming increasingly popular for ensuring improved accessibility to information. Bengali, being a low-resource language with a high regional dialectal diversity, has seen limited progress in developing such systems. Existing systems are not optimized for real-time use and focus only on standard Bengali. In this work, we present BanglaTalk, the first real-time speech assistance system for Bengali regional dialects. BanglaTalk follows the client-server architecture and uses the Real-time Transport Protocol (RTP) to ensure low-latency communication. To address dialectal variation, we introduce a dialect-aware ASR system, BRDialect, developed by fine-tuning the IndicWav2Vec model in ten Bengali regional dialects. It outperforms the baseline ASR models by 12.41-33.98% on the RegSpeech12 dataset. Furthermore, BanglaTalk can operate at a low bandwidth of 24 kbps while maintaining an average end-to-end delay of 4.9 seconds. Low bandwidth usage and minimal end-to-end delay make the system both cost-effective and interactive for real-time use cases, enabling inclusive and accessible speech technology for the diverse community of Bengali speakers.
- Abstract(参考訳): リアルタイム音声アシスタントは、情報へのアクセシビリティの向上を保証するために、ますます人気が高まっている。
ベンガル語は、地域方言の多様性が高い低リソース言語であり、そのようなシステムの開発において限られた進歩を遂げてきた。
既存のシステムはリアルタイム利用に最適化されておらず、標準のBengaliのみに焦点を当てている。
本稿では,ベンガル語方言における最初のリアルタイム音声支援システムであるBanglaTalkを紹介する。
BanglaTalkはクライアントサーバアーキテクチャに従い、低レイテンシ通信を保証するためにリアルタイムトランスポートプロトコル(RTP)を使用する。
IndicWav2Vecモデルをベンガル方言10方言で微調整し,方言を意識したASRシステムであるBRDialectを導入する。
RegSpeech12データセットでは、ベースラインのASRモデルを12.41-33.98%上回る。
さらに、BanglaTalkは24kbpsの低帯域で動作でき、平均的なエンドツーエンド遅延は4.9秒である。
低帯域使用量と最小限のエンドツーエンド遅延により、リアルタイムのユースケースにおいてコスト効率と対話性を両立させ、ベンガル語話者の多様なコミュニティに対して包括的でアクセスしやすい音声技術を可能にする。
関連論文リスト
- A2TTS: TTS for Low Resource Indian Languages [16.782842482372427]
未確認話者のための音声生成を目的とした話者条件付きテキスト音声合成システム(TTS)を提案する。
拡散型TSアーキテクチャを用いて、話者エンコーダは、複数話者生成のためのDDPMデコーダを条件に、短い参照オーディオサンプルから埋め込みを抽出する。
我々は、参照音声を利用するクロスアテンションに基づく継続時間予測機構を採用し、より正確で話者の一貫性のあるタイミングを可能にする。
論文 参考訳(メタデータ) (2025-07-21T06:20:27Z) - BanglaDialecto: An End-to-End AI-Powered Regional Speech Standardization [7.059964549363294]
本研究は、方言のNoakhali音声を標準のBangla音声に変換するためのエンドツーエンドパイプラインを提案する。
約55の異なる方言が1億6000万人が話しており、バングラ方言に対処することは包括的コミュニケーションツールの開発に不可欠である。
実験の結果,Whisper ASRモデルが0.8%,WERが1.5%,BanglaT5モデルが41.6%,BLEUが41.6%であった。
論文 参考訳(メタデータ) (2024-11-16T20:20:15Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - OOD-Speech: A Large Bengali Speech Recognition Dataset for
Out-of-Distribution Benchmarking [1.277758355297812]
OOD-Speechはベンガル語自動音声認識(ASR)のための最初のアウト・オブ・ディストリビューション・ベンチマークデータセットである
私たちのトレーニングデータセットは、大規模なオンラインクラウドソーシングキャンペーンを通じて収集され、1177.94時間、南アジアから22,645ドルのベンガル語話者から収集され、キュレートされた。
論文 参考訳(メタデータ) (2023-05-15T18:00:39Z) - Bangla-Wave: Improving Bangla Automatic Speech Recognition Utilizing
N-gram Language Models [0.0]
ポストプロセッサとしてn-gram言語モデルを追加することにより,ASRモデルの性能を大幅に向上させる方法について述べる。
我々は既存のASRモデルよりも優れた堅牢なBangla ASRモデルを生成する。
論文 参考訳(メタデータ) (2022-09-13T17:59:21Z) - Bengali Common Voice Speech Dataset for Automatic Speech Recognition [0.9218853132156671]
ベンガル語は世界で3億人以上の話者を抱える世界有数の言語の一つである。
その人気にもかかわらず、ベンガル音声認識システムの開発に関する研究は、多様なオープンソースデータセットが不足しているために妨げられている。
このデータセットから得られた知見を提示し、今後のバージョンで対処すべき重要な言語的課題について議論する。
論文 参考訳(メタデータ) (2022-06-28T14:52:08Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。