論文の概要: RECOApy: Data recording, pre-processing and phonetic transcription for
end-to-end speech-based applications
- arxiv url: http://arxiv.org/abs/2009.05493v2
- Date: Tue, 15 Sep 2020 09:07:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 22:02:02.469850
- Title: RECOApy: Data recording, pre-processing and phonetic transcription for
end-to-end speech-based applications
- Title(参考訳): RECOApy: エンドツーエンド音声ベースアプリケーションのためのデータ記録、前処理、音声書き起こし
- Authors: Adriana Stan
- Abstract要約: RECOApyは、エンドツーエンドの音声ベースのアプリケーションに必要なデータ記録と前処理のステップを合理化する。
このツールは、音声記録、スペクトログラム、波形解析、発話レベルの正規化、サイレントトリミングのための使い易いインタフェースを実装している。
Grapheme-to-phoneme(G2P)コンバータは、Wiktionaryのオンラインコラボレーションリソースから抽出されたレキシコンに基づいてトレーニングされたディープニューラルネットワーク(DNN)ベースのアーキテクチャである。
- 参考スコア(独自算出の注目度): 4.619541348328938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning enables the development of efficient end-to-end speech
processing applications while bypassing the need for expert linguistic and
signal processing features. Yet, recent studies show that good quality speech
resources and phonetic transcription of the training data can enhance the
results of these applications. In this paper, the RECOApy tool is introduced.
RECOApy streamlines the steps of data recording and pre-processing required in
end-to-end speech-based applications. The tool implements an easy-to-use
interface for prompted speech recording, spectrogram and waveform analysis,
utterance-level normalisation and silence trimming, as well grapheme-to-phoneme
conversion of the prompts in eight languages: Czech, English, French, German,
Italian, Polish, Romanian and Spanish.
The grapheme-to-phoneme (G2P) converters are deep neural network (DNN) based
architectures trained on lexicons extracted from the Wiktionary online
collaborative resource. With the different degree of orthographic transparency,
as well as the varying amount of phonetic entries across the languages, the
DNN's hyperparameters are optimised with an evolution strategy. The phoneme and
word error rates of the resulting G2P converters are presented and discussed.
The tool, the processed phonetic lexicons and trained G2P models are made
freely available.
- Abstract(参考訳): ディープラーニングは、専門言語や信号処理機能の必要性を回避しつつ、効率的なエンドツーエンドの音声処理アプリケーションの開発を可能にする。
しかし、近年の研究では、良質な音声資源と訓練データの音声転写が、これらの応用結果を高めることが示されている。
本稿では,RECOApyツールを紹介する。
RECOApyは、エンドツーエンドの音声ベースのアプリケーションに必要なデータ記録と前処理のステップを合理化する。
このツールは、音声記録、スペクトログラム、波形分析、発話レベルの正規化、サイレントトリミング、チェコ語、英語、フランス語、ドイツ語、イタリア語、ポーランド語、ルーマニア語、スペイン語の8つの言語でのプロンプトの音素変換のための使い勝手の良いインタフェースを実装している。
Grapheme-to-phoneme(G2P)コンバータは、Wiktionaryのオンラインコラボレーションリソースから抽出されたレキシコンに基づいてトレーニングされたディープニューラルネットワーク(DNN)ベースのアーキテクチャである。
異なるレベルの正書法透過性、および言語間の様々な音素エントリにより、DNNのハイパーパラメータは進化戦略によって最適化される。
結果のg2p変換器の音素および単語誤り率について述べる。
このツール、処理された音韻レキシコンおよび訓練されたg2pモデルが自由に利用できる。
関連論文リスト
- LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study [2.8948274245812327]
Grapheme-to-phoneme (G2P)変換は音声処理において重要である。
大規模言語モデル(LLM)は、最近、様々な言語タスクにおいて大きな可能性を証明している。
本稿では,ペルシャ語の文レベルの音声課題に対して,G2Pの性能を評価するためのベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2024-09-13T06:13:55Z) - Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer [39.31849739010572]
textbfGenerative textbfPre-trained textbfSpeech textbfTransformer (GPST)を紹介する。
GPSTは効率的な音声言語モデリングのために設計された階層変換器である。
論文 参考訳(メタデータ) (2024-06-03T04:16:30Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Improving grapheme-to-phoneme conversion by learning pronunciations from
speech recordings [12.669655363646257]
Grapheme-to-Phoneme(G2P)タスクは、正書法入力を離散的な音声表現に変換することを目的としている。
音声録音から発音例を学習し,G2P変換課題を改善する手法を提案する。
論文 参考訳(メタデータ) (2023-07-31T13:25:38Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation [10.016862617549991]
本稿では,単語レベルで操作するのではなく文全体を処理可能な新しいGrapheme-to-Phoneme(G2P)アーキテクチャであるSoundChoiceを提案する。
SoundChoiceは、LibriSpeechとWikipediaのデータを用いて全文の書き起こしで2.65%のPhoneme Error Rate(PER)を達成する。
論文 参考訳(メタデータ) (2022-07-27T01:14:59Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。