Fugu-MT 論文翻訳(概要): FOOCTTS: Generating Arabic Speech with Acoustic Environment for Football Commentator

論文の概要: FOOCTTS: Generating Arabic Speech with Acoustic Environment for Football Commentator

arxiv url: http://arxiv.org/abs/2306.07936v1
Date: Wed, 7 Jun 2023 12:33:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-18 12:31:54.069071
Title: FOOCTTS: Generating Arabic Speech with Acoustic Environment for Football Commentator
Title（参考訳）: FOOCTTS:サッカー解説者のための音響環境を用いたアラビア語音声の生成
Authors: Massa Baali, Ahmed Ali
Abstract要約: アプリケーションはユーザからテキストを取得し、母音化などのテキスト前処理を適用し、次にコメンテーターの音声合成装置が続く。パイプラインには、データラベリングのためのアラビア自動音声認識、CTCセグメンテーション、音声にマッチする転写母音化、TTSの微調整などが含まれていた。
参考スコア（独自算出の注目度）: 8.89134799076718
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper presents FOOCTTS, an automatic pipeline for a football commentator that generates speech with background crowd noise. The application gets the text from the user, applies text pre-processing such as vowelization, followed by the commentator's speech synthesizer. Our pipeline included Arabic automatic speech recognition for data labeling, CTC segmentation, transcription vowelization to match speech, and fine-tuning the TTS. Our system is capable of generating speech with its acoustic environment within limited 15 minutes of football commentator recording. Our prototype is generalizable and can be easily applied to different domains and languages.
Abstract（参考訳）: 本稿では,背景雑音を伴う音声を生成するサッカー解説者のための自動パイプラインFOOCTTSを提案する。アプリケーションはユーザからテキストを取得し、母音化などのテキスト前処理を適用し、次にコメンテーターの音声合成装置が続く。パイプラインには、データラベリングのためのアラビア自動音声認識、CTCセグメンテーション、音声にマッチする転写母音化、TTSの微調整が含まれていた。本システムは,サッカーコメンテータ記録の15分以内の音響環境下で音声を生成することができる。我々のプロトタイプは一般化可能で、異なるドメインや言語に容易に適用できます。

関連論文リスト

Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing [17.333427709985376]
本稿では,自動テキスト発音相関(ATPC)という,発音相関を自動的に取得するデータ駆動手法を提案する。マンダリンの実験結果から,ATPCはコンテキストバイアス下でのE2E-ASR性能を向上させることが示された。
論文参考訳（メタデータ） (2025-01-01T11:10:46Z)
Accent Conversion in Text-To-Speech Using Multi-Level VAE and Adversarial Training [14.323313455208183]
包括的音声技術は、特定のアクセントを持つ人々のような特定のグループに対する偏見を消すことを目的としている。本稿では,アクセント付き音声合成と変換に逆学習を用いたマルチレベル変分オートエンコーダを用いたTSモデルを提案する。
論文参考訳（メタデータ） (2024-06-03T05:56:02Z)
Zero-shot audio captioning with audio-language model guidance and audio context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文参考訳（メタデータ） (2023-11-14T18:55:48Z)
Direct Text to Speech Translation System using Acoustic Units [12.36988942647101]
本稿では,離散音響単位を用いた音声翻訳システムを提案する。このフレームワークは、異なるソース言語のテキストを入力として使用し、この言語でテキストの書き起こしを必要とせずに、ターゲット言語で音声を生成する。提案したアーキテクチャを、より多くの言語で事前訓練されたモデルで初期化すると、結果は顕著に改善される。
論文参考訳（メタデータ） (2023-09-14T07:35:14Z)
Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文参考訳（メタデータ） (2023-08-03T15:47:04Z)
Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models [64.14812728562596]
本稿では,事前学習した音声駆動音声合成モデルをテキスト駆動で動作させる手法を提案する。提供されたテキスト文を記述した顔ビデオを簡単に生成できる。
論文参考訳（メタデータ） (2023-06-28T08:22:53Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
A Textless Metric for Speech-to-Speech Comparison [20.658229254191266]
テキストの書き起こしに頼らずに音声の発話を比較するための,新しい,シンプルな手法を提案する。我々は,HuBERTのような最先端の音声2ユニットエンコーダを用いて,音声の発話を離散音響単位に変換する。
論文参考訳（メタデータ） (2022-10-21T09:28:54Z)
Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文参考訳（メタデータ） (2021-09-12T04:17:53Z)
AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文参考訳（メタデータ） (2021-04-20T01:53:30Z)
Audio Adversarial Examples: Attacks Using Vocal Masks [0.0]
自動音声テキストシステム上での音声対向例を構築した。我々は、オリジナル音声から生成された音声のボーカルマスクをオーバーレイすることで、別の音声を生成する。 We apply our audio adversarial attack to five SOTA STT system: DeepSpeech, Julius, Kaldi, wav2letter@anywhere and CMUSphinx。
論文参考訳（メタデータ） (2021-02-04T05:21:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。