論文の概要: Everyday Speech in the Indian Subcontinent
- arxiv url: http://arxiv.org/abs/2410.10508v2
- Date: Fri, 21 Feb 2025 17:00:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 23:09:17.863152
- Title: Everyday Speech in the Indian Subcontinent
- Title(参考訳): インド亜大陸における毎日のスピーチ
- Authors: Utkarsh P,
- Abstract要約: インドには1369の言語があり、22が公式である。これらの言語を表現するために約13の異なるスクリプトが使用されている。
共通ラベルセット(Common Label Set)は、多言語合成のためのEnd-to-Endフレームワークで必要とされる大きな語彙単位の問題に対処するために音声学に基づいて開発された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: India has 1369 languages of which 22 are official. About 13 different scripts are used to represent these languages. A Common Label Set (CLS) was developed based on phonetics to address the issue of large vocabulary of units required in the End-to-End (E2E) framework for multilingual synthesis. The Indian language text is first converted to CLS. This approach enables seamless code switching across 13 Indian languages and English in a given native speaker's voice, which corresponds to everyday speech in the Indian subcontinent, where the population is multilingual.
- Abstract(参考訳): インドには1369の言語があり、うち22が公用語である。
これらの言語を表現するために約13の異なるスクリプトが使用されている。
Common Label Set (CLS) は、多言語合成のためのEnd-to-End(E2E)フレームワークで必要とされる大量の単位の語彙の問題に対処するために、音声学に基づいて開発された。
インド語のテキストは、最初にCLSに変換される。
このアプローチは、インド亜大陸の住民が多言語である日々のスピーチに対応する、与えられた母語話者の声の中で13のインド語と英語をシームレスに切り替えることを可能にする。
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - Multilingual Text-to-Speech Synthesis for Turkic Languages Using
Transliteration [3.0122461286351796]
本研究の目的は,低リソースのトルコ語10言語を対象とした多言語テキスト音声合成システムの構築である。
ゼロショット学習のシナリオを特に対象とし、ある言語のデータを用いて訓練されたTSモデルを他の未知言語のための音声合成に適用する。
Tacotron 2 アーキテクチャに基づくエンドツーエンド TTS システムは、カザフ語で利用可能なデータのみを用いて訓練された。
論文 参考訳(メタデータ) (2023-05-25T05:57:54Z) - DuDe: Dual-Decoder Multilingual ASR for Indian Languages using Common
Label Set [0.0]
Common Label Set (CLS) は、共通ラベルに似た音を持つ様々な言語のグラフエムをマッピングする。
インドの言語はほとんどが音声言語であるため、ネイティブスクリプトからCLSに変換するための音訳を構築するのは簡単である。
本稿では,多言語システム構築のためのMultilingual-Decoder-Decoderという新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-30T04:01:26Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - Towards Natural Bilingual and Code-Switched Speech Synthesis Based on
Mix of Monolingual Recordings and Cross-Lingual Voice Conversion [28.830575877307176]
両方の言語でネイティブレベルの流布を実現する話者からバイリンガルコーパスを得るのは容易ではない。
タコトロン2に基づく音声変換システムを用いて、マンダリン話者の英語音声と英語話者のマンダリン音声を生成する。
得られたバイリンガルデータは、Transformerモデルを用いて合成されたコード切替発話で拡張される。
論文 参考訳(メタデータ) (2020-10-16T03:51:00Z) - Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。
テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文 参考訳(メタデータ) (2020-08-06T18:25:18Z) - A Transfer Learning End-to-End ArabicText-To-Speech (TTS) Deep
Architecture [0.0]
既存のアラビア音声合成ソリューションは低品質であり、合成音声の自然性は英語の合成者より劣っている。
この研究は、エンドツーエンドのニューラルネットワークアーキテクチャを用いて、高品質で自然な、人間に似たアラビア語の音声を生成する方法について説明する。
論文 参考訳(メタデータ) (2020-07-22T17:03:18Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。