論文の概要: RASMALAI: Resources for Adaptive Speech Modeling in Indian Languages with Accents and Intonations
- arxiv url: http://arxiv.org/abs/2505.18609v2
- Date: Tue, 27 May 2025 14:19:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:20.054946
- Title: RASMALAI: Resources for Adaptive Speech Modeling in Indian Languages with Accents and Intonations
- Title(参考訳): RASMALAI:アクセントとイントネーションを持つインド言語における適応型音声モデリングのためのリソース
- Authors: Ashwin Sankar, Yoach Lacombe, Sherry Thomas, Praveen Srinivasa Varadhan, Sanchit Gandhi, Mitesh M Khapra,
- Abstract要約: 本稿では,リッチテキスト記述を伴う大規模音声データセットであるRASMALAIを紹介する。
IndicParlerTTSは,インド語に対する初のオープンソースのテキスト記述誘導型TTSである。
- 参考スコア(独自算出の注目度): 15.198945496921914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce RASMALAI, a large-scale speech dataset with rich text descriptions, designed to advance controllable and expressive text-to-speech (TTS) synthesis for 23 Indian languages and English. It comprises 13,000 hours of speech and 24 million text-description annotations with fine-grained attributes like speaker identity, accent, emotion, style, and background conditions. Using RASMALAI, we develop IndicParlerTTS, the first open-source, text-description-guided TTS for Indian languages. Systematic evaluation demonstrates its ability to generate high-quality speech for named speakers, reliably follow text descriptions and accurately synthesize specified attributes. Additionally, it effectively transfers expressive characteristics both within and across languages. IndicParlerTTS consistently achieves strong performance across these evaluations, setting a new standard for controllable multilingual expressive speech synthesis in Indian languages.
- Abstract(参考訳): 豊かなテキスト記述を持つ大規模音声データセットであるRASMALAIを導入し、23のインド語と英語に対して制御可能で表現可能な音声合成(TTS)を推進する。
13,000時間のスピーチと、話者のアイデンティティ、アクセント、感情、スタイル、背景条件などの細かい属性を持つ2400万のテキスト記述アノテーションで構成されている。
IndicParlerTTSは, RASMALAIを用いて, インド語のための初のオープンソース, テキスト記述誘導型TTSである。
システム評価は、名前付き話者に対して高品質な音声を生成する能力を示し、テキスト記述を確実に追従し、指定された属性を正確に合成する能力を示す。
さらに、言語内および言語間の表現的特徴を効果的に伝達する。
IndicParlerTTSはこれらの評価において一貫して高い性能を達成し、インドの言語で制御可能な多言語表現型音声合成の新しい標準を確立している。
関連論文リスト
- CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training [70.10844677737886]
野生におけるゼロショット多言語音声合成のための改良モデルであるCosyVoice 3を提案する。
CosyVoice 3の主な特徴は、韻律自然性を改善する新しい音声トークンである。
データは1万時間から100万時間に拡張され、9つの言語と18の中国語方言を含んでいる。
論文 参考訳(メタデータ) (2025-05-23T07:55:21Z) - BhasaAnuvaad: A Speech Translation Dataset for 13 Indian Languages [27.273651323572786]
インド語における広く使われている自動音声翻訳システムの性能を評価する。
口語と非公式の言語を正確に翻訳できるシステムが存在しないことは顕著である。
BhasaAnuvaadを紹介します。ASTの公開データセットとしては最大で、22のインド言語と英語のうち13が対象です。
論文 参考訳(メタデータ) (2024-11-07T13:33:34Z) - SpeechCraft: A Fine-grained Expressive Speech Dataset with Natural Language Description [19.064845530513285]
本稿では,表現的かつ鮮明な人間の言語記述で単語中の音声クリップに注釈を付ける,解釈のための自動音声アノテーションシステムを提案する。
本システムでは,自然言語記述の調整による音声スタイルの深い理解を提供する。
約2000時間の音声データを含み、200万以上の音声クリップを含む、高度に記述的な自然言語スタイルのプロンプトによって区別されている。
論文 参考訳(メタデータ) (2024-08-24T15:36:08Z) - DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。
我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。
これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-27T03:52:35Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised
Learning for Text-To-Speech [37.942466944970704]
本稿では,テキスト音声合成(TTS)モデルのための多言語共同学習フレームワークであるVirtuosoを提案する。
様々な音声およびテキストデータからTSモデルをトレーニングするために、教師なし(TTSおよびASRデータ)と教師なし(非教師なし)のデータセットを扱うように、異なるトレーニングスキームが設計されている。
実験により、Virtuosoで訓練された多言語TSモデルは、見かけの言語におけるベースラインモデルよりも、自然性や知性に優れることが示された。
論文 参考訳(メタデータ) (2022-10-27T14:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。