論文の概要: Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost
- arxiv url: http://arxiv.org/abs/2604.25441v1
- Date: Tue, 28 Apr 2026 09:50:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.805756
- Title: Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost
- Title(参考訳): Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost (英語)
- Authors: Venkata Pushpak Teja Menta,
- Abstract要約: 商用TTSシステムは、ほぼネイティブなIndicオーディオを生成するが、最良のオープンソースベースは、測定された音韻次元でそれらを追従する。
私たちは、Telugu、Tamil、Hindiの商用クラスアウトプットにこのような非インデックスネイティブベースをもたらす、最小限の介入は、どのようなものなのでしょうか?
BUPS(Brahmic Unified Phoneme Space)は7つのIndicスクリプトを決定論的にISO-15919にロマライズし、Chatterboxのラテントークンサがそれらを処理できるようにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Commercial TTS systems produce near-native Indic audio, but the best open-source bases (Chatterbox, Indic Parler-TTS, IndicF5) trail them on measured phonological dimensions, and the most widely adopted multilingual base (Chatterbox, 23 languages) does not even tokenise Telugu or Tamil. We ask: what is the minimum intervention that brings such a non-Indic-native base to commercial-class output on Telugu, Tamil, and Hindi, without training a new acoustic decoder and without any commercial TTS training data? We combine three pieces: (1) BUPS, a Brahmic Unified Phoneme Space that deterministically romanises seven Indic scripts to ISO-15919 so Chatterbox's Latin tokeniser can process them; (2) a LoRA adapter on only the text-token predictor (Chatterbox's t3), trained on ~1,220h of licensed Indic audio with a Hindi-proxy language_id; (3) a voice-prompt recovery recipe -- an 8-11s same-language reference clip plus three sampling overrides (exaggeration 0.7, temperature 0.6, min_p 0.1; "Config B") -- that recovers commercial-class acoustic output with no acoustic-decoder training. On Hindi, the LoRA regresses accuracy and we instead use vanilla Chatterbox + Config B, giving a two-branch deployment. Evaluated on 10-utterance pilot sets with the companion PSP benchmark, Praxy Voice matches or slightly leads commercial baselines: 26.7% retroflex collapse on Telugu (vs Sarvam Bulbul 33.3%), 71% Tamil-zha collapse (vs commercial trio's 86%), 0.025 LLM-WER on Hindi (tied with Cartesia Sonic-3). For intra-sentential code-mix we add a third branch (IndicF5 + native-script transliteration) that drops code-mix LLM-WER from 0.80-0.85 to 0.14-0.27 across Hi/Te/Ta. We release R6 LoRA weights (Apache-2.0), inference code and router (MIT), and a Gradio demo.
- Abstract(参考訳): 商用TTSシステムは、ほぼネイティブなIndicオーディオを生成するが、最も優れたオープンソースベース(Chatterbox、Indic Parler-TTS、IndicF5)は、測定された音韻次元でそれらを追尾し、最も広く採用されている多言語ベース(Chatterbox、23言語)は、TeluguやTamilにさえ言及していない。
新たなアコースティックデコーダをトレーニングすることなく、商用TSトレーニングデータなしで、Telugu、Tamil、Hindiの商用クラスアウトプットにこのような非インデックスネイティブベースをもたらす、最小限の介入は何か?
BUPS, 7つのIndicスクリプトを決定論的にISO-15919にロマライズするBrahmic Unified Phoneme Space, (2) テキストトークン予測器(Chatterboxのt3)のみ上のLoRAアダプタ, 1,220hのライセンス付きIndicオーディオをHindi-proxy language_idでトレーニングした,(3) 8-11sの同言語参照クリップと3つのサンプリングオーバーライド(exaggeration 0.7, temperature 0.6, min_p 0.1; "Config B")。
Hindiでは、LoRAが精度を低下させ、代わりにvanilla Chatterbox + Config Bを使用します。
プラクシー・ボイス・マッチ (Praxy Voice match) は、テルーグ (vs Sarvam Bulbul 33.3%) で26.7%、タミル・ジャ (vs commercial trio's 86%) で71%、ヒンディー語で0.025 LLM-WER (Cartesia Sonic-3) と競合する。
IndicF5 + native-script transliteration) は、コードミックス LLM-WER を Hi/Te/Ta 全体で 0.80-0.85 から 0.14-0.27 に落とします。
R6 LoRAの重み(Apache-2.0)、推論コードとルータ(MIT)、Gradioのデモをリリースしています。
関連論文リスト
- PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech [0.0]
音素置換プロファイル(Phonme Substitution Profile)は、Indic TTSの音素単位のアクセントベンチマークである。
PSPはアクセントを6つの相補的次元に分解する: 反射崩壊率(RR)、吸入フィデリティ(AF)、母音長フィデリティ(ZF)、フレシェオーディオ距離(FAD)、韻律的シグネチャディペンデンス(PSD)。
論文 参考訳(メタデータ) (2026-04-28T10:28:32Z) - Omnilingual SONAR: Cross-Lingual and Cross-Modal Sentence Embeddings Bridging Massively Multilingual Text and Speech [61.759910921200834]
言語間の文エンコーダは通常、数百の言語をカバーしている。
我々はOmniSONARを紹介した。OmniSONARは全言語、言語横断、言語横断の文埋め込みモデルである。
論文 参考訳(メタデータ) (2026-03-17T14:47:35Z) - Bolbosh: Script-Aware Flow Matching for Kashmiri Text-to-Speech [2.00542420408131]
カシミリ語は700万人ほどが話しているが、音声技術には批判的だ。
Kashmiri用に設計された,オープンソースのニューラルネットワークシステムについて紹介する。
論文 参考訳(メタデータ) (2026-03-08T07:34:15Z) - Saudi-Dialect-ALLaM: LoRA Fine-Tuning for Dialectal Arabic Generation [0.0]
アラビア語の大きな言語モデル(LLM)は現代標準アラビア語(MSA)に支配されている。
この表現不足は、真正な方言の変化を捉える能力を妨げている。
サウジアラビア方言教育データセットを用いて,サウジアラビア方言生成の基礎モデルを構築した。
論文 参考訳(メタデータ) (2025-08-19T05:33:48Z) - Kinship in Speech: Leveraging Linguistic Relatedness for Zero-Shot TTS in Indian Languages [6.74683227658822]
インドには1369の言語があり、22の公用語が13のスクリプトを使用している。
我々の研究はゼロショット合成に焦点を当てており、特にスクリプトとフォノタクティクスが異なる家系の言語を対象としている。
サンスクリット語、マハーラーシュトリアン語、カナラ・コンカニ語、マイティリ語、クルフ語のために、知的で自然なスピーチが作られた。
論文 参考訳(メタデータ) (2025-06-04T12:22:24Z) - Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations [65.59784436914548]
ローマ語文を予測して言語に依存しない音声表現を学習するAV-Romanizerについて紹介する。
予測されたローマ語文を言語固有のグラフエムに変換し、提案したカスケードゼロ-AVSRを形成する。
音声・言語多様性の広帯域化を図るため,MARC(Multilingual Audio-Visual Romanized Corpus)も導入した。
論文 参考訳(メタデータ) (2025-03-08T16:40:13Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。
具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。
Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文 参考訳(メタデータ) (2023-01-05T15:37:15Z) - Effectiveness of Mining Audio and Text Pairs from Public Data for
Improving ASR Systems for Low-Resource Languages [15.214673043019395]
Shrutilipiは、12のインドの言語で6,400時間以上のラベル付きオーディオを含むデータセットです。
平均すると、Shrutilipiは公開ラベル付きデータよりも2.3倍増加する。
We show that that Shrutilipi to the training set of Wav2Vec models to a average down of WER for 7 languages。
論文 参考訳(メタデータ) (2022-08-26T13:37:45Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。