論文の概要: The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail
- arxiv url: http://arxiv.org/abs/2605.03073v1
- Date: Mon, 04 May 2026 18:43:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.607036
- Title: The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail
- Title(参考訳): TTS-STTフライホイール:商用およびオープンソースシステムが故障したASRギャップを閉鎖するシンセティック・エンティティ・ディエンス・オーディオ
- Authors: Venkata Pushpak Teja Menta,
- Abstract要約: Niche-domain Indic ASR はオープンソース SOTA と商用システムによって不足している。
このギャップを自己完結型TS->STTフライホイールで埋める。
コード、ホールドアウト、予測、EDSAコーパス、エンティティ辞書がオープンソースとしてリリースされた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Niche-domain Indic ASR -- digit strings, currency amounts, addresses, brand names, English/Indic codemix -- is under-served by both open-source SOTA and commercial systems. On a synthesised entity-dense Telugu test set (held-out by synthesis system), vasista22/whisper-telugu-large-v2 (open SOTA) achieves Entity-Hit-Rate (EHR) 0.027 and Deepgram Nova-3 (commercial) 0.16. We close this gap with a self-contained TTS<->STT flywheel: an open-source Indic TTS pipeline synthesises ~22,000 entity-dense Indic-English code-mix utterances at <$50 marginal cost, and a LoRA fine-tune on top of vasista22 achieves EHR 0.473 on the held-out test (17x over open SOTA, 3x over commercial), with read-prose regression bounded to +6.6 pp WER on FLEURS-Te. Cross-language: beta-Hi 0.337 (7x vs vasista22) and beta-Ta 0.543 (22x vs vasista22, 22x vs Deepgram); on Hindi where Deepgram has substantial entity coverage, the flywheel underperforms commercial. All three beta models fall below pre-registered EHR targets (0.75 for Te, 0.65 for Hi/Ta); we report honestly. A native-human-recorded sanity check (n=20 Telugu) confirms transfer to real speech (beta-Te EHR 0.516 on native vs 0.473 on synth). An EDSA-isolation ablation (LoRA on FLEURS-Te alone) yields EHR 0.020 on the same held-out, attributing ~100% of the gain to the EDSA corpus. We additionally report a language-conditional finding: vanilla Whisper-large-v3 has Telugu-specific Script Collapse (SFR 0.46-0.71) that a per-language LoRA corrects (SFR 0.81-0.97), but the recipe is contraindicated on Hindi and Tamil where vanilla SFR >= 0.98. Code, holdouts, predictions, EDSA corpus, and entity dictionaries are released open-source.
- Abstract(参考訳): Niche- domain Indic ASR -- 桁の文字列、通貨の量、住所、ブランド名、英語/インデックスのコードミックス -- は、オープンソースSOTAと商用システムの両方で不足している。
合成された実体密度のTeluguテストセット(合成システムによって維持される)では、vasista22/whisper-telugu-large-v2(オープンSOTA)がEntity-Hit-Rate(EHR)0.027とDeepgram Nova-3(商用)0.16を達成する。
このギャップを自己完結したTS<->STTフライホイールで埋める: オープンソースのIndic TTSパイプライン合成 ~22,000 エンティティディエンス Indic- English code-mix utterances を50ドルの限界費用で、vasista22 上の LoRA fine-tune は FLEURS-Te 上でリードプロス回帰を+6.6 pp WER にバウンドしたホールドアウトテスト (17x over open SOTA, 3x over commercial) で EHR 0.473 を達成する。
クロス言語: beta-Hi 0.337 (7x vs vasista22)と beta-Ta 0.543 (22x vs vasista22, 22x vs Deepgram)。
3つのベータモデルはいずれも、登録済みのERHターゲット(Teは0.75、Hi/Taは0.65)を下回ります。
ネイティブに記録された正当性チェック (n=20 Telugu) は、実際の音声への移行を確認する(Beta-Te EHR 0.516 on native vs 0.473 on synth)。
EDSA-isolation ablation (LoRA on FLEURS-Te alone) は同じホールドアウトで EHR 0.020 となり、EDSA コーパスへの利得の ~100% となる。
vanilla Whisper-large-v3 has Telugu-specific Script Collapse (SFR 0.46-0.71) that a per- language LoRA corrects (SFR 0.81-0.97) but this recipe is contraindicated on Hindi and Tamil where vanilla SFR >= 0.98。
コード、ホールドアウト、予測、EDSAコーパス、エンティティ辞書がオープンソースとしてリリースされた。
関連論文リスト
- LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation [0.0]
話者エンコーダは、音声が発声されたスクリプトに関係なく、同じ話者を同一に扱うべきである。
オフザシェルフエンコーダは使用せず、失敗はアクセント条件である。
凍結したWavLMベースプラスを2つの損失で訓練した小型プロジェクションヘッドであるLASEを提示する。
論文 参考訳(メタデータ) (2026-05-01T16:46:25Z) - PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech [0.0]
音素置換プロファイル(Phonme Substitution Profile)は、Indic TTSの音素単位のアクセントベンチマークである。
PSPはアクセントを6つの相補的次元に分解する: 反射崩壊率(RR)、吸入フィデリティ(AF)、母音長フィデリティ(ZF)、フレシェオーディオ距離(FAD)、韻律的シグネチャディペンデンス(PSD)。
論文 参考訳(メタデータ) (2026-04-28T10:28:32Z) - Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost [0.0]
商用TTSシステムは、ほぼネイティブなIndicオーディオを生成するが、最良のオープンソースベースは、測定された音韻次元でそれらを追従する。
私たちは、Telugu、Tamil、Hindiの商用クラスアウトプットにこのような非インデックスネイティブベースをもたらす、最小限の介入は、どのようなものなのでしょうか?
BUPS(Brahmic Unified Phoneme Space)は7つのIndicスクリプトを決定論的にISO-15919にロマライズし、Chatterboxのラテントークンサがそれらを処理できるようにする。
論文 参考訳(メタデータ) (2026-04-28T09:50:01Z) - Benchmarking Multilingual Speech Models on Pashto: Zero-Shot ASR, Script Failure, and Cross-Domain Evaluation [0.0]
Pashtoは、約6000~8000万人が話すが、共有公開テストセット上での多言語自動音声認識(ASR)のベンチマークは公開されていない。
本稿では,公開Pashtoデータに対する最初の再現可能なマルチモデル評価を行い,ゼロショットASR,スクリプトレベルの故障,微調整モデルのクロスドメイン評価について報告する。
論文 参考訳(メタデータ) (2026-04-06T11:23:42Z) - Omnilingual SONAR: Cross-Lingual and Cross-Modal Sentence Embeddings Bridging Massively Multilingual Text and Speech [61.759910921200834]
言語間の文エンコーダは通常、数百の言語をカバーしている。
我々はOmniSONARを紹介した。OmniSONARは全言語、言語横断、言語横断の文埋め込みモデルである。
論文 参考訳(メタデータ) (2026-03-17T14:47:35Z) - PashtoCorp: A 1.25-Billion-Word Corpus, Evaluation Suite, and Reproducible Pipeline for Low-Resource Language Development [0.0]
パシュトコープ (PashtoCorp) は、パシュト語(英語版)の1.25ビリオン語コーパスである。
PashtoCorpは2.81億の文書にまたがる1.25Bワードで、OSCARのPashtoサブセットの40倍、かつての最大の専用Pashtoコーパスの83倍の大きさである。
論文 参考訳(メタデータ) (2026-03-17T10:36:18Z) - Qwen3-ASR Technical Report [71.87071808763484]
2つの強力なオールインワン音声認識モデルと、新しい非自己回帰音声強制アライメントモデルを含むQwen3-ASRファミリを紹介する。
Qwen3-ASR-1.7BとQwen3-ASR-0.6Bは、言語識別と52の言語および方言のASRをサポートするASRモデルである。
論文 参考訳(メタデータ) (2026-01-29T06:58:13Z) - Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages [76.14451035425229]
大規模自動音声認識システムであるOmnilingual ASRを紹介する。
自己教師付き事前学習を7Bパラメータに拡張し、堅牢な音声表現を学習する。
ASRが提供しなかった500以上の言語を含む1,600以上の言語にカバー範囲を広げている。
論文 参考訳(メタデータ) (2025-11-12T19:48:09Z) - Exploration of End-to-End ASR for OpenSTT -- Russian Open Speech-to-Text
Dataset [73.66530509749305]
本稿では,ロシア最大のオープンソース言語データセットであるOpenSTTのエンドツーエンド自動音声認識システム(ASR)について検討する。
CTC/Attention, RNN-Transducer, Transformer など,既存のエンドツーエンドアプローチの評価を行った。
利用可能な3つの検証セット(電話、YouTube、書籍)について、私たちの最高のエンドツーエンドモデルは、それぞれ34.8%、19.1%、および18.1%のワードエラー率(WER)を達成する。
論文 参考訳(メタデータ) (2020-06-15T10:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。