Fugu-MT 論文翻訳(概要): Building African Voices

論文の概要: Building African Voices

arxiv url: http://arxiv.org/abs/2207.00688v1
Date: Fri, 1 Jul 2022 23:28:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-09 12:35:29.770782
Title: Building African Voices
Title（参考訳）: アフリカの声を作る
Authors: Perez Ogayo, Graham Neubig, Alan W Black
Abstract要約: 本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
参考スコア（独自算出の注目度）: 125.92214914982753
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern speech synthesis techniques can produce natural-sounding speech given sufficient high-quality data and compute resources. However, such data is not readily available for many languages. This paper focuses on speech synthesis for low-resourced African languages, from corpus creation to sharing and deploying the Text-to-Speech (TTS) systems. We first create a set of general-purpose instructions on building speech synthesis systems with minimum technological resources and subject-matter expertise. Next, we create new datasets and curate datasets from "found" data (existing recordings) through a participatory approach while considering accessibility, quality, and breadth. We demonstrate that we can develop synthesizers that generate intelligible speech with 25 minutes of created speech, even when recorded in suboptimal environments. Finally, we release the speech data, code, and trained voices for 12 African languages to support researchers and developers.
Abstract（参考訳）: 現代の音声合成技術は、十分な品質のデータと計算資源を与えられた自然音声を生成することができる。しかし、そのようなデータは多くの言語で簡単には利用できない。本稿では,コーパス作成からtext-to-speech (tts) システムへの展開まで,低資源アフリカ言語のための音声合成について述べる。まず,最少技術資源と被写体専門知識を備えた音声合成システム構築のための汎用命令セットを作成する。次に、アクセシビリティ、品質、幅を考慮して、参加型アプローチを通じて、新たなデータセットを作成し、(既存の)データからデータセットをキュレートする。本稿では,25分間の音声生成が可能な音声合成装置を開発した。最後に、研究者や開発者をサポートするために12のアフリカの言語のための音声データ、コード、訓練された音声をリリースします。

関連論文リスト

Speechless: Speech Instruction Training Without Speech for Low Resource Languages [14.223895501862811]
音声コマンドの理解と実行を微調整する大規模言語モデルには,音声命令データの不足が不可欠である。我々の新しいアプローチは、TSの必要性を回避し、意味表現レベルでの合成を停止することで、この問題に対処する。我々は,合成意味表現を事前訓練されたWhisperエンコーダと整合させ,LLMをテキスト命令で微調整し,推論中の音声命令を理解する能力を維持しながら実現した。
論文参考訳（メタデータ） (2025-05-23T03:05:47Z)
SpeechDialogueFactory: Generating High-Quality Speech Dialogue Data to Accelerate Your Speech-LLM Development [42.598003881584816]
自然言語対話を効率的に生成するための生産対応フレームワークであるtextscSpeechDialogueFactory を紹介する。提案手法では,メタデータ生成,対話スクリプティング,パラ言語に富んだ発話シミュレーション,音声クローニングによる自然な音声合成を含む包括的パイプラインを用いる。私たちはオープンソースツールキットとして、サンプルデータセットを英語と中国語で公開しています。
論文参考訳（メタデータ） (2025-03-31T08:52:21Z)
Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文参考訳（メタデータ） (2024-09-17T08:36:45Z)
1000 African Voices: Advancing inclusive multi-speaker multi-accent speech synthesis [1.7606944034136094]
Afro-TTSは、最初のパン・アフリカ英語アクセント音声合成システムである。話者は自然さとアクセントを保ち、新しい声を作り出すことができる。
論文参考訳（メタデータ） (2024-06-17T16:46:10Z)
Meta Learning Text-to-Speech Synthesis in over 7000 Languages [29.17020696379219]
本研究では,7000以上の言語で音声を生成できる1つの音声合成システムを構築する上で,課題に取り組む。本手法は,多言語事前学習とメタラーニングの新たな統合を活用することで,ゼロショット音声合成を利用可能なデータを持たない言語で実現する。我々は,限られた言語資源を持つコミュニティの活性化と,音声技術分野におけるさらなるイノベーションの育成を目指している。
論文参考訳（メタデータ） (2024-06-10T15:56:52Z)
MunTTS: A Text-to-Speech System for Mundari [18.116359188623832]
MnTTSは,オーストリア・アジア系の低リソースのインド語であるムンダリ(Mundari)のための,エンドツーエンドのテキスト音声合成システムである。本研究は、音声合成システムを構築するために、データを収集し、処理することで、未表現言語における言語技術のギャップに対処する。
論文参考訳（メタデータ） (2024-01-28T06:27:17Z)
Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文参考訳（メタデータ） (2023-08-03T15:47:04Z)
On decoder-only architecture for speech-to-text and large language model integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文参考訳（メタデータ） (2023-07-08T06:47:58Z)
Multilingual Multiaccented Multispeaker TTS with RADTTS [21.234787964238645]
RADTTSに基づく多言語・多言語・多話者音声合成モデルを提案する。 7つのアクセントからなるオープンソースデータセットにおいて、任意の話者に対して合成アクセントを制御する能力を示す。
論文参考訳（メタデータ） (2023-01-24T22:39:04Z)
Automatic Speech Recognition Datasets in Cantonese Language: A Survey and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。 MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文参考訳（メタデータ） (2022-01-07T12:09:15Z)
Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文参考訳（メタデータ） (2021-12-15T18:56:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。