論文の概要: Phir Hera Fairy: An English Fairytaler is a Strong Faker of Fluent Speech in Low-Resource Indian Languages
- arxiv url: http://arxiv.org/abs/2505.20693v1
- Date: Tue, 27 May 2025 04:02:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.397231
- Title: Phir Hera Fairy: An English Fairytaler is a Strong Faker of Fluent Speech in Low-Resource Indian Languages
- Title(参考訳): フィア・ヘラ・フェアリー(Phir Hera Fairy) : 英語のfairytalerは、低資源のインドの言語におけるフルエントスピーチの強みである
- Authors: Praveen Srinivasa Varadhan, Srija Anand, Soma Siddhartha, Mitesh M. Khapra,
- Abstract要約: 英語のF5-TTSモデルがインドの11言語にどのように適応するかを評価する。
インドのデータのみによる微調整は、最も効果的である。
我々は、IN-F5がBhojpuriやTuluのような目に見えない言語を合成できることを示します。
- 参考スコア(独自算出の注目度): 16.172599163455693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What happens when an English Fairytaler is fine-tuned on Indian languages? We evaluate how the English F5-TTS model adapts to 11 Indian languages, measuring polyglot fluency, voice-cloning, style-cloning, and code-mixing. We compare: (i) training from scratch, (ii) fine-tuning English F5 on Indian data, and (iii) fine-tuning on both Indian and English data to prevent forgetting. Fine-tuning with only Indian data proves most effective and the resultant IN-F5 is a near-human polyglot; that enables speakers of one language (e.g., Odia) to fluently speak in another (e.g., Hindi). Our results show English pretraining aids low-resource TTS in reaching human parity. To aid progress in other low-resource languages, we study data-constrained setups and arrive at a compute optimal strategy. Finally, we show IN-F5 can synthesize unseen languages like Bhojpuri and Tulu using a human-in-the-loop approach for zero-resource TTS via synthetic data generation.
- Abstract(参考訳): 英語のfairytalerがインドの言語で微調整されたらどうなるか?
英語のF5-TTSモデルが11のインドの言語にどのように適応するかを評価する。
比較する。
(i)スクラッチからのトレーニング
(二 インドのデータに関する英語F5の微調整、及び
(三)忘れるのを防ぐため、インドとイングランドのデータの両方を微調整すること。
インドのデータのみを用いた微調整は最も効果的であることが証明され、結果のIN-F5は人間に近い多言語であり、ある言語(例えばオディア)の話者が他の言語(例えばヒンディー語)で流麗に話すことができる。
以上の結果から、英語の事前学習は、低リソースのTSが人間のパリティに達するのに役立ちます。
その他の低リソース言語における進歩を支援するため,データ制約付きセットアップについて検討し,計算最適戦略に到達する。
最後に、IN-F5は、BhojpuriやTuluのような見えない言語を、合成データ生成を介して、ゼロリソースTSに対して、Human-in-the-loopアプローチで合成することができることを示す。
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Fine-tuning Pre-trained Named Entity Recognition Models For Indian Languages [6.7638050195383075]
課題を分析し,インド語の多言語名称認識に適した手法を提案する。
主要な2つのインド語族から4つのインド語に対する40K文の注釈付きエンティティコーパスを提示する。
我々は、我々のモデルの有用性を裏付けるインド言語のための、全く見当たらないベンチマークデータセットにおいて、同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-05-08T05:54:54Z) - Low-Resource Counterspeech Generation for Indic Languages: The Case of
Bengali and Hindi [11.117463901375602]
私たちはBengaliやHindiといった低リソース言語のギャップを埋めています。
我々は5,062人の虐待的音声/音声ペアのベンチマークデータセットを作成する。
モノリンガル設定が最高のパフォーマンスをもたらすことを観察する。
論文 参考訳(メタデータ) (2024-02-11T18:09:50Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - Low-Resource End-to-end Sanskrit TTS using Tacotron2, WaveGlow and
Transfer Learning [0.0]
我々は,サンスクリットにおける自然音声を低資源環境下で合成するために,限られたサンスクリットデータを用いた英語事前学習型タコトロン2モデルを微調整した。
実験の結果,サンスクリット語話者37名を対象に,総合的なMOS3.38を達成できた。
論文 参考訳(メタデータ) (2022-12-07T10:15:34Z) - KARI: KAnari/QCRI's End-to-End systems for the INTERSPEECH 2021 Indian
Languages Code-Switching Challenge [7.711092265101041]
本稿では,低リソースのインド言語に対するICS(Interspeech 2021 Code-switching)チャレンジに参加するために使用される,Kanari/QCRIシステムとモデリング戦略について述べる。
このサブタスクには、ヒンディー語とベンガル語という2つのCSデータセットのための音声認識システムの開発が含まれていた。
CSの課題に対処するために、公開のモノリンガルヒンディー語、ベンガル語、英語の音声データを取り入れるためにトランスファーラーニングを利用する。
論文 参考訳(メタデータ) (2021-06-10T16:12:51Z) - Emergent Communication Pretraining for Few-Shot Machine Translation [66.48990742411033]
我々は、参照ゲームからの創発的コミュニケーションを介してニューラルネットワークを事前訓練する。
私たちの重要な前提は、実世界の環境の粗悪な近似として、画像に基づくコミュニケーションを基盤にすることで、帰納的に自然言語学習のモデルに偏りが生じる、ということです。
論文 参考訳(メタデータ) (2020-11-02T10:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。