論文の概要: SpeeChain: A Speech Toolkit for Large-Scale Machine Speech Chain
- arxiv url: http://arxiv.org/abs/2301.02966v1
- Date: Sun, 8 Jan 2023 03:16:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 16:04:04.276328
- Title: SpeeChain: A Speech Toolkit for Large-Scale Machine Speech Chain
- Title(参考訳): SpeeChain: 大規模音声チェインのための音声ツールキット
- Authors: Heli Qi, Sashi Novitasari, Andros Tjandra, Sakriani Sakti, Satoshi
Nakamura
- Abstract要約: 本稿では,大規模使用のための機械学習チェーンを開発するためのオープンソースのツールキットであるSpeeChainを紹介する。
最初のリリースでは、マシン音声チェーンのコアコンポーネントであるTS-to-ASRチェーンに焦点を当てている。
- 参考スコア(独自算出の注目度): 24.173142171714996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces SpeeChain, an open-source Pytorch-based toolkit
designed to develop the machine speech chain for large-scale use. This first
release focuses on the TTS-to-ASR chain, a core component of the machine speech
chain, that refers to the TTS data augmentation by unspoken text for ASR. To
build an efficient pipeline for the large-scale TTS-to-ASR chain, we implement
easy-to-use multi-GPU batch-level model inference, multi-dataloader batch
generation, and on-the-fly data selection techniques. In this paper, we first
explain the overall procedure of the TTS-to-ASR chain and the difficulties of
each step. Then, we present a detailed ablation study on different types of
unlabeled data, data filtering thresholds, batch composition, and
real-synthetic data ratios. Our experimental results on train_clean_460 of
LibriSpeech demonstrate that our TTS-to-ASR chain can significantly improve WER
in a semi-supervised setting.
- Abstract(参考訳): 本稿では,PytorchをベースとしたオープンソースのツールキットであるSpeeChainを紹介する。
この最初のリリースは、マシン音声チェーンのコアコンポーネントであるTS-to-ASRチェーンに焦点を当てている。
大規模TS-to-ASRチェーンのための効率的なパイプラインを構築するため,マルチGPUバッチレベルモデル推論,マルチデータローダバッチ生成,オンザフライデータ選択手法を実装した。
本稿では,まずtts-to-asr連鎖の全体手順と各ステップの難易度について述べる。
次に,非ラベルデータの種類,データフィルタリングしきい値,バッチ合成,実合成データ比について詳細なアブレーション研究を行う。
LibriSpeech の train_clean_460 に対する実験結果から,我々の TTS-to-ASR 連鎖は半教師付き環境で WER を大幅に改善できることが示された。
関連論文リスト
- Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM [48.71951982716363]
テキスト音声合成(TTS)モデルは自動音声認識(ASR)システムを強化するために広く採用されている。
我々は,大規模言語モデル(LLM)と高度なゼロショットTSを利用する新しいASRデータ拡張手法であるHard-Synthを提案する。
我々のアプローチでは、追加のテキストデータに頼ることなく、書き直しによる多様なドメイン内テキストを生成するためにLLMを用いる。
論文 参考訳(メタデータ) (2024-11-20T09:49:37Z) - MultiVerse: Efficient and Expressive Zero-Shot Multi-Task Text-to-Speech [7.038489351956803]
MultiVerseは、ゼロショットのマルチタスクTSシステムであり、ゼロショットおよびクロスランガル条件下でTSや音声スタイルの転送を行うことができる。
我々は、フィルタ関連およびソース関連表現をモデル化するためのプロンプトを利用して、ソースフィルタ理論に基づくアンタングルメントを用いる。
我々の新しい韻律モデリング技術は、与えられた韻律と高い韻律的類似性を持つ音声を生成するMultiVerseの能力に大きく貢献する。
論文 参考訳(メタデータ) (2024-10-04T07:10:25Z) - Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis [35.16243386407448]
Bridge-TTSは、確立された拡散に基づくTS法において、ノイズの多いガウスをクリーンで決定論的に置き換える新しいTSシステムである。
具体的には、テキスト入力から得られた潜伏表現を前もって利用し、それと地上トルス・メル・スペクトログラムの間に完全にトラクタブルなシュロディンガーブリッジを構築する。
論文 参考訳(メタデータ) (2023-12-06T13:31:55Z) - Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Augmenting Images for ASR and TTS through Single-loop and Dual-loop
Multimodal Chain Framework [26.326043261200862]
画像生成(IG)によるマルチモーダルマシンチェーンフレームワークの改良
複数話者自然言語データに基づく単一ループおよび二重ループアーキテクチャを用いて,ASRおよびTSの画像データの拡張の可能性を検討する。
論文 参考訳(メタデータ) (2020-11-04T02:26:02Z) - GraphSpeech: Syntax-Aware Graph Attention Network For Neural Speech
Synthesis [79.1885389845874]
Transformer-based end-to-end text-to-speech synthesis (TTS)は、このような実装の成功例の一つである。
本稿では,グラフニューラルネットワークフレームワークで定式化された新しいニューラルネットワークモデルであるGraphSpeechを提案する。
実験により、GraphSpeechは、発話のスペクトルと韻律レンダリングの点で、Transformer TTSベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2020-10-23T14:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。