論文の概要: JaiTTS: A Thai Voice Cloning Model
- arxiv url: http://arxiv.org/abs/2604.27607v1
- Date: Thu, 30 Apr 2026 08:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.008776
- Title: JaiTTS: A Thai Voice Cloning Model
- Title(参考訳): JaiTTS:タイの音声クローンモデル
- Authors: Jullajak Karnjanaekarin, Pontakorn Trakuekul, Narongkorn Panitsrisit, Sumana Sumanakul, Vichayuth Nitayasomboon, Nithid Guntasin, Thanavin Denkavin, Attapol T. Rutherford,
- Abstract要約: JaiTTS-v1.0は、タイ語中心の音声コーパスの継続訓練によって構築された、最先端のタイ語音声クローンテキスト音声合成モデルである。
モデルアーキテクチャは、トークン化不要な自動回帰TSモデルであるVoxCPMから適応されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present JaiTTS-v1.0, a state-of-the-art Thai voice cloning text-to-speech model built through continual training on a large Thai-centric speech corpus. The model architecture is adapted from VoxCPM, a tokenizer-free autoregressive TTS model. JaiTTS-v1.0 directly processes numerals and Thai-English code-switching, which is very common in realistic settings, without explicit text normalization. We test the models on short-duration speech generation and long-duration speech generation, which reflects many real-world use cases. JaiTTS-v1.0 achieves a state-of-the-art CER of 1.94\%, surpassing the human ground truth of 1.98% for short-duration tasks while performing on par with human ground truth for long-duration tasks. In human judgment evaluations, our model wins 283 of 400 pairwise comparisons against commercial flagships, with only 58 losses.
- Abstract(参考訳): 本稿では,タイ語中心の大規模音声コーパスの継続学習によって構築された,最先端のタイ語音声クローンテキスト音声合成モデルであるJaiTTS-v1.0を提案する。
モデルアーキテクチャは、トークン化不要な自動回帰TSモデルであるVoxCPMから適応されている。
JaiTTS-v1.0は、明示的なテキスト正規化なしに、現実的な設定で非常に一般的な、数字とタイ英語のコードスイッチングを直接処理する。
我々は,多くの実世界のユースケースを反映した短周期音声生成と長周期音声生成のモデルをテストする。
JaiTTS-v1.0 は最先端の CER の 1.94 % を達成し、短期間のタスクでは 1.98% の人間基底真理を上回り、長期のタスクでは人間基底真理と同等に実行している。
人的判断評価では,400種中283種が商業用旗艦と対等に比較され,58件の損失しか得られなかった。
関連論文リスト
- Improving Code-Switching Speech Recognition with TTS Data Augmentation [58.34842693152991]
本稿では,この不足に対処する効果的なデータ拡張手法として,多言語テキスト音声(TTS)モデルについて検討する。
我々は、SEAMEデータセット上の多言語CosyVoice2 TTSモデルを微調整し、中国語と英語の合成音声を生成する。
論文 参考訳(メタデータ) (2026-01-02T10:11:51Z) - DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation [111.94720088481614]
多モーダル生成モデルは方言テキスト入力を効果的に生成できるのか?
6つの共通英語方言にまたがる大規模ベンチマークを構築した。
マルチモーダル生成モデルのための一般的なエンコーダに基づく緩和戦略を設計する。
論文 参考訳(メタデータ) (2025-10-16T17:56:55Z) - TTS-1 Technical Report [0.9134656817901009]
Inworld TTS-1は、Transformerベースの2つの自動回帰テキスト音声モデルのセットである。
TTS-1とTS-1-Maxは低レイテンシで48kHzの高分解能音声を生成することができる。
私たちはまた、MITライセンスの下でトレーニングとモデリングのコードをオープンソースにしています。
論文 参考訳(メタデータ) (2025-07-22T23:57:11Z) - Xmodel-1.5: An 1B-scale Multilingual LLM [4.298869484709548]
2兆のトークンで事前訓練された多言語大言語モデルであるXmodel-1.5を紹介する。
Xmodel-1.5は65,280個のトークンを持つカスタムユニグラムトークンライザを採用し、効率と精度の両方を最適化している。
このモデルは、タイ語、アラビア語、フランス語、中国語、英語など、複数の言語で競合する結果をもたらす。
論文 参考訳(メタデータ) (2024-11-15T10:01:52Z) - PRESENT: Zero-Shot Text-to-Prosody Control [41.62954081589881]
PreSENT (Prosody Editing without Style Embeddings or New Training) は、FastSpeech2ベースのモデルにおいて、推論プロセスを直接修正することで明示的な韻律予測を利用する。
我々は、それぞれドイツ語、ハンガリー語、スペイン語の文字誤り率(CER)を12.8%、18.7%、および5.9%とし、3つの言語で前回のCERを2倍以上上回った。
論文 参考訳(メタデータ) (2024-08-13T11:39:07Z) - Zero-Shot vs. Few-Shot Multi-Speaker TTS Using Pre-trained Czech SpeechT5 Model [3.462371782084948]
対象話者のデータのうち1分だけを用いて,任意の話者に対して合成音声を生成することができることを示す。
チェコの政治家や有名人に対して、私たちの合成音声の質の高さと類似性を実証することに成功しました。
論文 参考訳(メタデータ) (2024-07-24T11:14:06Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。