論文の概要: Bolbosh: Script-Aware Flow Matching for Kashmiri Text-to-Speech
- arxiv url: http://arxiv.org/abs/2603.07513v1
- Date: Sun, 08 Mar 2026 07:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.702325
- Title: Bolbosh: Script-Aware Flow Matching for Kashmiri Text-to-Speech
- Title(参考訳): Bolbosh: Kashmiriテキスト合成のためのスクリプト対応フローマッチング
- Authors: Tajamul Ashraf, Burhaan Rasheed Zargar, Saeed Abdul Muizz, Ifrah Mushtaq, Nazima Mehdi, Iqra Altaf Gillani, Aadil Amin Kak, Janibul Bashir,
- Abstract要約: カシミリ語は700万人ほどが話しているが、音声技術には批判的だ。
Kashmiri用に設計された,オープンソースのニューラルネットワークシステムについて紹介する。
- 参考スコア(独自算出の注目度): 2.00542420408131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Kashmiri is spoken by around 7 million people but remains critically underserved in speech technology, despite its official status and rich linguistic heritage. The lack of robust Text-to-Speech (TTS) systems limits digital accessibility and inclusive human-computer interaction for native speakers. In this work, we present the first dedicated open-source neural TTS system designed for Kashmiri. We show that zero-shot multilingual baselines trained for Indic languages fail to produce intelligible speech, achieving a Mean Opinion Score (MOS) of only 1.86, largely due to inadequate modeling of Perso-Arabic diacritics and language-specific phonotactics. To address these limitations, we propose Bolbosh, a supervised cross-lingual adaptation strategy based on Optimal Transport Conditional Flow Matching (OT-CFM) within the Matcha-TTS framework. This enables stable alignment under limited paired data. We further introduce a three-stage acoustic enhancement pipeline consisting of dereverberation, silence trimming, and loudness normalization to unify heterogeneous speech sources and stabilize alignment learning. The model vocabulary is expanded to explicitly encode Kashmiri graphemes, preserving fine-grained vowel distinctions. Our system achieves a MOS of 3.63 and a Mel-Cepstral Distortion (MCD) of 3.73, substantially outperforming multilingual baselines and establishing a new benchmark for Kashmiri speech synthesis. Our results demonstrate that script-aware and supervised flow-based adaptation are critical for low-resource TTS in diacritic-sensitive languages. Code and data are available at: https://github.com/gaash-lab/Bolbosh.
- Abstract(参考訳): カシミリ語は700万人ほどが話すが、公的な地位と豊かな言語遺産にもかかわらず、音声技術に批判的な立場を保っている。
堅牢なText-to-Speech (TTS)システムの欠如は、ネイティブスピーカーに対するデジタルアクセシビリティと包括的人間とコンピュータの相互作用を制限する。
本稿では,Kashmiri用に設計されたオープンソースのニューラルネットワークシステムについて紹介する。
Indic言語で訓練されたゼロショット多言語ベースラインは、ペルソ・アラビア語の発音と言語固有の音韻のモデリングが不十分なため、わずか1.86の平均オピニオンスコア(MOS)を達成できないことを示す。
これらの制約に対処するため,Matcha-TTS フレームワーク内での OT-CFM (Optimal Transport Conditional Flow Matching) に基づく言語間適応戦略である Bolbosh を提案する。
これにより、限られたペアデータの下で安定したアライメントが可能になる。
さらに、不均一な音声源を統一し、アライメント学習を安定させるために、収音、サイレントトリミング、ラウドネス正規化からなる3段階音響拡張パイプラインを導入する。
モデル語彙はカシュミリ・グラテムを明示的に符号化するために拡張され、きめ細かい母音の区別が保たれる。
本システムは,MOS 3.63とMel-Cepstral Distortion (MCD) 3.73を実現し,多言語ベースラインを大幅に上回り,Kashmiri音声合成のための新しいベンチマークを確立する。
本研究は,スクリプト認識と教師付きフローベース適応が,低リソースのTSにおいて,ダイアクリティカルな言語であることを示す。
コードとデータは、https://github.com/gaash-lab/Bolbosh.comで入手できる。
関連論文リスト
- ks-lit-3m: A 3.1 million word kashmiri text dataset for large language model pretraining [0.0]
本稿では,KS-LIT-3Mについて紹介する。KS-LIT-3MはKashmiri上での事前学習用に特別に設計された3100万語(164万文字)のコーパスである。
データセットはCC-BY-4.0ライセンスでリリースされ、Kashmiri自然言語処理の研究を容易にする。
論文 参考訳(メタデータ) (2026-01-03T06:43:26Z) - Context-Aware Whisper for Arabic ASR Under Linguistic Varieties [27.039946482465268]
そこで我々は,OpenAIのWhisperをアラビア音声認識に適用するための文脈認識戦略を提案する。
本稿では, アクセシブリオーダー, 話者対応プレフィックス合成, モーダリティ特化検索などの手法を紹介する。
我々のアプローチは、WERを現代標準アラビア語で最大22.3%、方言言語で最大9.2%削減する。
論文 参考訳(メタデータ) (2025-11-24T05:16:04Z) - ELEGANCE: Efficient LLM Guidance for Audio-Visual Target Speech Extraction [88.41471266579333]
本稿では,大規模言語モデル(LLM)からの言語知識をAV-TSEモデルに組み込む新しいフレームワークであるELEGANCEを提案する。
2つのAV-TSEバックボーン上でのRoBERTa、Qwen3-0.6B、Qwen3-4Bによる総合的な実験は大幅に改善された。
論文 参考訳(メタデータ) (2025-11-09T08:50:11Z) - Kinship in Speech: Leveraging Linguistic Relatedness for Zero-Shot TTS in Indian Languages [6.74683227658822]
インドには1369の言語があり、22の公用語が13のスクリプトを使用している。
我々の研究はゼロショット合成に焦点を当てており、特にスクリプトとフォノタクティクスが異なる家系の言語を対象としている。
サンスクリット語、マハーラーシュトリアン語、カナラ・コンカニ語、マイティリ語、クルフ語のために、知的で自然なスピーチが作られた。
論文 参考訳(メタデータ) (2025-06-04T12:22:24Z) - CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training [70.31925012315064]
野生におけるゼロショット多言語音声合成のための改良モデルであるCosyVoice 3を提案する。
CosyVoice 3の主な特徴は、韻律自然性を改善する新しい音声トークンである。
データは1万時間から100万時間に拡張され、9つの言語と18の中国語方言を含んでいる。
論文 参考訳(メタデータ) (2025-05-23T07:55:21Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - SANE-TTS: Stable And Natural End-to-End Multilingual Text-to-Speech [0.3277163122167433]
SANE-TTS は安定かつ自然な多言語 TTS モデルである。
言語間合成における音声自然性を改善する話者正規化損失を導入する。
本モデルでは, 音源話者によらず, 適度なリズムの音声を生成する。
論文 参考訳(メタデータ) (2022-06-24T07:53:05Z) - Cross-lingual Low Resource Speaker Adaptation Using Phonological
Features [2.8080708404213373]
我々は、異なる言語に共通する音韻的特徴のセットに基づいて、言語に依存しないマルチスピーカモデルを訓練する。
対象話者データの32と8の発声で、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
論文 参考訳(メタデータ) (2021-11-17T12:33:42Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。