Fugu-MT 論文翻訳(概要): Everyday Speech in the Indian Subcontinent

論文の概要: Everyday Speech in the Indian Subcontinent

arxiv url: http://arxiv.org/abs/2410.10508v2
Date: Fri, 21 Feb 2025 17:00:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-24 21:37:38.882095
Title: Everyday Speech in the Indian Subcontinent
Title（参考訳）: インド亜大陸における毎日のスピーチ
Authors: Utkarsh P,
Abstract要約: インドには1369の言語があり、22が公式である。これらの言語を表現するために約13の異なるスクリプトが使用されている。共通ラベルセット(Common Label Set)は、多言語合成のためのEnd-to-Endフレームワークで必要とされる大きな語彙単位の問題に対処するために音声学に基づいて開発された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: India has 1369 languages of which 22 are official. About 13 different scripts are used to represent these languages. A Common Label Set (CLS) was developed based on phonetics to address the issue of large vocabulary of units required in the End-to-End (E2E) framework for multilingual synthesis. The Indian language text is first converted to CLS. This approach enables seamless code switching across 13 Indian languages and English in a given native speaker's voice, which corresponds to everyday speech in the Indian subcontinent, where the population is multilingual.
Abstract（参考訳）: インドには1369の言語があり、うち22が公用語である。これらの言語を表現するために約13の異なるスクリプトが使用されている。 Common Label Set (CLS) は、多言語合成のためのEnd-to-End(E2E)フレームワークで必要とされる大量の単位の語彙の問題に対処するために、音声学に基づいて開発された。インド語のテキストは、最初にCLSに変換される。このアプローチは、インド亜大陸の住民が多言語である日々のスピーチに対応する、与えられた母語話者の声の中で13のインド語と英語をシームレスに切り替えることを可能にする。

関連論文リスト

CS-FLEURS: A Massively Multilingual and Code-Switched Speech Dataset [99.0507412649934]
CS-FLEURSは4つのテストセットから構成されており、52言語にまたがる113の独特な言語ペアをカバーしている。 CS-FLEURSはまた、16のX字対にわたる128時間の生成テキスト音声データのトレーニングセットも提供している。
論文参考訳（メタデータ） (2025-09-17T16:45:22Z)
ILID: Native Script Language Identification for Indian Languages [0.0]
言語識別のコア課題は、ノイズの多い、短い、そしてコード混在した環境で言語を区別することにある。英語を含む23の言語と、その言語識別子をラベル付けした22の公用語からなる250K文のデータセットをリリースする。我々のモデルは、言語識別タスクのための最先端の訓練済みトランスフォーマーモデルより優れています。
論文参考訳（メタデータ） (2025-07-16T01:39:32Z)
Kinship in Speech: Leveraging Linguistic Relatedness for Zero-Shot TTS in Indian Languages [6.74683227658822]
インドには1369の言語があり、22の公用語が13のスクリプトを使用している。我々の研究はゼロショット合成に焦点を当てており、特にスクリプトとフォノタクティクスが異なる家系の言語を対象としている。サンスクリット語、マハーラーシュトリアン語、カナラ・コンカニ語、マイティリ語、クルフ語のために、知的で自然なスピーチが作られた。
論文参考訳（メタデータ） (2025-06-04T12:22:24Z)
BhasaAnuvaad: A Speech Translation Dataset for 13 Indian Languages [27.273651323572786]
インド語における広く使われている自動音声翻訳システムの性能を評価する。口語と非公式の言語を正確に翻訳できるシステムが存在しないことは顕著である。 BhasaAnuvaadを紹介します。ASTの公開データセットとしては最大で、22のインド言語と英語のうち13が対象です。
論文参考訳（メタデータ） (2024-11-07T13:33:34Z)
CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。 COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文参考訳（メタデータ） (2024-06-16T16:10:51Z)
Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文参考訳（メタデータ） (2024-03-19T21:45:29Z)
IndicVoices: Towards building an Inclusive Multilingual Speech Dataset for Indian Languages [17.862027695142825]
INDICVOICESは、145のインド地区と22の言語をカバーする16237人の話者による自然および自発的なスピーチのデータセットである。 1639時間は既に書き起こされており、言語ごとの平均的な時間は73時間である。この作業の一部として開発されたデータ、ツール、ガイドライン、モデル、その他の材料はすべて公開されます。
論文参考訳（メタデータ） (2024-03-04T10:42:08Z)
Speech collage: code-switched audio generation by collaging monolingual corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。 2つのシナリオにおける音声認識における生成データの影響について検討する。
論文参考訳（メタデータ） (2023-09-27T14:17:53Z)
PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文参考訳（メタデータ） (2023-06-05T15:53:15Z)
Multilingual Text-to-Speech Synthesis for Turkic Languages Using Transliteration [3.0122461286351796]
本研究の目的は,低リソースのトルコ語10言語を対象とした多言語テキスト音声合成システムの構築である。ゼロショット学習のシナリオを特に対象とし、ある言語のデータを用いて訓練されたTSモデルを他の未知言語のための音声合成に適用する。 Tacotron 2 アーキテクチャに基づくエンドツーエンド TTS システムは、カザフ語で利用可能なデータのみを用いて訓練された。
論文参考訳（メタデータ） (2023-05-25T05:57:54Z)
Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10～40倍増やす。主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文参考訳（メタデータ） (2023-05-22T22:09:41Z)
DuDe: Dual-Decoder Multilingual ASR for Indian Languages using Common Label Set [0.0]
Common Label Set (CLS) は、共通ラベルに似た音を持つ様々な言語のグラフエムをマッピングする。インドの言語はほとんどが音声言語であるため、ネイティブスクリプトからCLSに変換するための音訳を構築するのは簡単である。本稿では,多言語システム構築のためのMultilingual-Decoder-Decoderという新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2022-10-30T04:01:26Z)
Multilingual and code-switching ASR challenges for low resource Indian languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文参考訳（メタデータ） (2021-04-01T03:37:01Z)
MuRIL: Multilingual Representations for Indian Languages [3.529875637780551]
インドは、1369の合理化された言語と方言が全国で話されている多言語社会です。それにもかかわらず、今日の最先端の多言語システムは、インド(IN)言語で最適に動作します。 IN言語に特化した多言語言語モデルであるMuRILを提案します。
論文参考訳（メタデータ） (2021-03-19T11:06:37Z)
Towards Natural Bilingual and Code-Switched Speech Synthesis Based on Mix of Monolingual Recordings and Cross-Lingual Voice Conversion [28.830575877307176]
両方の言語でネイティブレベルの流布を実現する話者からバイリンガルコーパスを得るのは容易ではない。タコトロン2に基づく音声変換システムを用いて、マンダリン話者の英語音声と英語話者のマンダリン音声を生成する。得られたバイリンガルデータは、Transformerモデルを用いて合成されたコード切替発話で拡張される。
論文参考訳（メタデータ） (2020-10-16T03:51:00Z)
Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文参考訳（メタデータ） (2020-08-06T18:25:18Z)
A Transfer Learning End-to-End ArabicText-To-Speech (TTS) Deep Architecture [0.0]
既存のアラビア音声合成ソリューションは低品質であり、合成音声の自然性は英語の合成者より劣っている。この研究は、エンドツーエンドのニューラルネットワークアーキテクチャを用いて、高品質で自然な、人間に似たアラビア語の音声を生成する方法について説明する。
論文参考訳（メタデータ） (2020-07-22T17:03:18Z)
That Sounds Familiar: an Analysis of Phonetic Representations Transfer Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文参考訳（メタデータ） (2020-05-16T22:28:09Z)
CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。 11,000人以上の話者と60以上のアクセントで多様化した。 CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文参考訳（メタデータ） (2020-02-04T14:35:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。