Fugu-MT 論文翻訳(概要): RASMALAI: Resources for Adaptive Speech Modeling in Indian Languages with Accents and Intonations

論文の概要: RASMALAI: Resources for Adaptive Speech Modeling in Indian Languages with Accents and Intonations

arxiv url: http://arxiv.org/abs/2505.18609v2
Date: Tue, 27 May 2025 14:19:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 14:37:20.054946
Title: RASMALAI: Resources for Adaptive Speech Modeling in Indian Languages with Accents and Intonations
Title（参考訳）: RASMALAI:アクセントとイントネーションを持つインド言語における適応型音声モデリングのためのリソース
Authors: Ashwin Sankar, Yoach Lacombe, Sherry Thomas, Praveen Srinivasa Varadhan, Sanchit Gandhi, Mitesh M Khapra,
Abstract要約: 本稿では,リッチテキスト記述を伴う大規模音声データセットであるRASMALAIを紹介する。 IndicParlerTTSは,インド語に対する初のオープンソースのテキスト記述誘導型TTSである。
参考スコア（独自算出の注目度）: 15.198945496921914
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce RASMALAI, a large-scale speech dataset with rich text descriptions, designed to advance controllable and expressive text-to-speech (TTS) synthesis for 23 Indian languages and English. It comprises 13,000 hours of speech and 24 million text-description annotations with fine-grained attributes like speaker identity, accent, emotion, style, and background conditions. Using RASMALAI, we develop IndicParlerTTS, the first open-source, text-description-guided TTS for Indian languages. Systematic evaluation demonstrates its ability to generate high-quality speech for named speakers, reliably follow text descriptions and accurately synthesize specified attributes. Additionally, it effectively transfers expressive characteristics both within and across languages. IndicParlerTTS consistently achieves strong performance across these evaluations, setting a new standard for controllable multilingual expressive speech synthesis in Indian languages.
Abstract（参考訳）: 豊かなテキスト記述を持つ大規模音声データセットであるRASMALAIを導入し、23のインド語と英語に対して制御可能で表現可能な音声合成(TTS)を推進する。 13,000時間のスピーチと、話者のアイデンティティ、アクセント、感情、スタイル、背景条件などの細かい属性を持つ2400万のテキスト記述アノテーションで構成されている。 IndicParlerTTSは, RASMALAIを用いて, インド語のための初のオープンソース, テキスト記述誘導型TTSである。システム評価は、名前付き話者に対して高品質な音声を生成する能力を示し、テキスト記述を確実に追従し、指定された属性を正確に合成する能力を示す。さらに、言語内および言語間の表現的特徴を効果的に伝達する。 IndicParlerTTSはこれらの評価において一貫して高い性能を達成し、インドの言語で制御可能な多言語表現型音声合成の新しい標準を確立している。

関連論文リスト

NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations [7.55995559331834]
パラ言語的発声は自然な音声通信に不可欠である。 NVSpeechはパラ言語的発声の認識と合成を橋渡しする。 NVSpeechは、マンダリンで表現力のある音声モデリングのための、オープンで大規模な単語レベルの注釈付きパイプラインを提供する。
論文参考訳（メタデータ） (2025-08-06T08:25:26Z)
Optimizing Multilingual Text-To-Speech with Accents & Emotions [0.0]
本稿では,アクセントを付加した新しいTSアーキテクチャを提案する。本稿では,言語固有の音素アライメント型エンコーダ-デコーダアーキテクチャを統合することで,Parler-TTSモデルを拡張した。テストでは、アクセント精度が23.7%改善し、ネイティブリスナーによる感情認識精度が85.3%向上した。
論文参考訳（メタデータ） (2025-06-19T13:35:05Z)
Kinship in Speech: Leveraging Linguistic Relatedness for Zero-Shot TTS in Indian Languages [6.74683227658822]
インドには1369の言語があり、22の公用語が13のスクリプトを使用している。我々の研究はゼロショット合成に焦点を当てており、特にスクリプトとフォノタクティクスが異なる家系の言語を対象としている。サンスクリット語、マハーラーシュトリアン語、カナラ・コンカニ語、マイティリ語、クルフ語のために、知的で自然なスピーチが作られた。
論文参考訳（メタデータ） (2025-06-04T12:22:24Z)
CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training [70.10844677737886]
野生におけるゼロショット多言語音声合成のための改良モデルであるCosyVoice 3を提案する。 CosyVoice 3の主な特徴は、韻律自然性を改善する新しい音声トークンである。データは1万時間から100万時間に拡張され、9つの言語と18の中国語方言を含んでいる。
論文参考訳（メタデータ） (2025-05-23T07:55:21Z)
BhasaAnuvaad: A Speech Translation Dataset for 13 Indian Languages [27.273651323572786]
インド語における広く使われている自動音声翻訳システムの性能を評価する。口語と非公式の言語を正確に翻訳できるシステムが存在しないことは顕著である。 BhasaAnuvaadを紹介します。ASTの公開データセットとしては最大で、22のインド言語と英語のうち13が対象です。
論文参考訳（メタデータ） (2024-11-07T13:33:34Z)
SpeechCraft: A Fine-grained Expressive Speech Dataset with Natural Language Description [19.064845530513285]
本稿では,表現的かつ鮮明な人間の言語記述で単語中の音声クリップに注釈を付ける,解釈のための自動音声アノテーションシステムを提案する。本システムでは,自然言語記述の調整による音声スタイルの深い理解を提供する。約2000時間の音声データを含み、200万以上の音声クリップを含む、高度に記述的な自然言語スタイルのプロンプトによって区別されている。
論文参考訳（メタデータ） (2024-08-24T15:36:08Z)
DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文参考訳（メタデータ） (2024-06-27T03:52:35Z)
CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。 COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文参考訳（メタデータ） (2024-06-16T16:10:51Z)
Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT) モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文参考訳（メタデータ） (2023-12-23T18:14:56Z)
Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文参考訳（メタデータ） (2023-08-03T15:47:04Z)
ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2023-05-24T07:42:15Z)
Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised Learning for Text-To-Speech [37.942466944970704]
本稿では,テキスト音声合成(TTS)モデルのための多言語共同学習フレームワークであるVirtuosoを提案する。様々な音声およびテキストデータからTSモデルをトレーニングするために、教師なし(TTSおよびASRデータ)と教師なし(非教師なし)のデータセットを扱うように、異なるトレーニングスキームが設計されている。実験により、Virtuosoで訓練された多言語TSモデルは、見かけの言語におけるベースラインモデルよりも、自然性や知性に優れることが示された。
論文参考訳（メタデータ） (2022-10-27T14:09:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。