論文の概要: Text to Speech System for Meitei Mayek Script
- arxiv url: http://arxiv.org/abs/2508.06870v1
- Date: Sat, 09 Aug 2025 07:40:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.588652
- Title: Text to Speech System for Meitei Mayek Script
- Title(参考訳): Meitei Mayekスクリプトのためのテキスト・音声システム
- Authors: Gangular Singh Irengbam, Nirvash Singh Wahengbam, Lanthoiba Meitei Khumanthem, Paikhomba Oinam,
- Abstract要約: 音節音韻学および低リソース言語環境に適応したニューラルTSアーキテクチャを提案する。
We developed a phoneme mapping for Meitei Mayek to ARPAbet, curate a single-speaker dataset, and demonstrate intelligible and natural speech synthesis。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents the development of a Text-to-Speech (TTS) system for the Manipuri language using the Meitei Mayek script. Leveraging Tacotron 2 and HiFi-GAN, we introduce a neural TTS architecture adapted to support tonal phonology and under-resourced linguistic environments. We develop a phoneme mapping for Meitei Mayek to ARPAbet, curate a single-speaker dataset, and demonstrate intelligible and natural speech synthesis, validated through subjective and objective metrics. This system lays the groundwork for linguistic preservation and technological inclusion of Manipuri.
- Abstract(参考訳): 本稿では,Meitei Mayek 文字を用いたマニピュリ言語用テキスト音声合成システム (TTS) の開発について述べる。
Tacotron 2 と HiFi-GAN を応用し,音節音韻学および低リソース言語環境に適応したニューラル TTS アーキテクチャを提案する。
我々は、Meitei Mayek から ARPAbet への音素マッピングを開発し、単一話者データセットをキュレートし、主観的および客観的なメトリクスによって検証された、理解不能で自然な音声合成を実証する。
この制度はマニプリの言語保存と技術的包摂の基礎を築いた。
関連論文リスト
- Kinship in Speech: Leveraging Linguistic Relatedness for Zero-Shot TTS in Indian Languages [6.74683227658822]
インドには1369の言語があり、22の公用語が13のスクリプトを使用している。
我々の研究はゼロショット合成に焦点を当てており、特にスクリプトとフォノタクティクスが異なる家系の言語を対象としている。
サンスクリット語、マハーラーシュトリアン語、カナラ・コンカニ語、マイティリ語、クルフ語のために、知的で自然なスピーチが作られた。
論文 参考訳(メタデータ) (2025-06-04T12:22:24Z) - MunTTS: A Text-to-Speech System for Mundari [18.116359188623832]
MnTTSは,オーストリア・アジア系の低リソースのインド語であるムンダリ(Mundari)のための,エンドツーエンドのテキスト音声合成システムである。
本研究は、音声合成システムを構築するために、データを収集し、処理することで、未表現言語における言語技術のギャップに対処する。
論文 参考訳(メタデータ) (2024-01-28T06:27:17Z) - MUST&P-SRL: Multi-lingual and Unified Syllabification in Text and
Phonetic Domains for Speech Representation Learning [0.76146285961466]
言語特徴抽出の方法論として,複数の言語における単語の自動分割に着目した手法を提案する。
本手法は,テキストと音声の両領域において,テキストから音素の書き起こしを抽出すること,ストレスマーク,統合された自動音節分類に重点を置いている。
このシステムはオープンソースのコンポーネントとリソースで構築された。
論文 参考訳(メタデータ) (2023-10-17T19:27:23Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Applying Phonological Features in Multilingual Text-To-Speech [2.567123525861164]
ARPABET/pinyinをSAMPA/SAMPA-SCにマッピングし,音声学的特徴について検討した。
このマッピングが、2つの言語でネイティブ、非ネイティブ、コードスイッチトされた音声の生成を成功させるかどうかを検証した。
論文 参考訳(メタデータ) (2021-10-07T16:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。