論文の概要: TouchASP: Elastic Automatic Speech Perception that Everyone Can Touch
- arxiv url: http://arxiv.org/abs/2412.15622v1
- Date: Fri, 20 Dec 2024 07:28:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:23:04.156405
- Title: TouchASP: Elastic Automatic Speech Perception that Everyone Can Touch
- Title(参考訳): TouchASP: 誰でもタッチできるElastic Automatic Speech Perception
- Authors: Xingchen Song, Chengdong Liang, Binbin Zhang, Pengshen Zhang, ZiYu Wang, Youcheng Ma, Menglong Xu, Lin Wang, Di Wu, Fuping Pan, Dinghao Zhou, Zhendong Peng,
- Abstract要約: 大規模自動音声認識(ASR)モデルは、トレーニングプロセス中に大量のパラメータ、大量のデータ、重要な計算資源を必要とする。
本稿では,eMoEモデルの弾性混合モデルを提案する。このモデルを一度だけ訓練し,デプロイ要求に応じて弾性的に拡張することができる。
これら2つの手法を用いて,SpeechIOテストセットのキャラクタエラー率(CER)を4.98%から2.45%に低減し,弾力的展開を実現する。
- 参考スコア(独自算出の注目度): 15.001750645731162
- License:
- Abstract: Large Automatic Speech Recognition (ASR) models demand a vast number of parameters, copious amounts of data, and significant computational resources during the training process. However, such models can merely be deployed on high-compute cloud platforms and are only capable of performing speech recognition tasks. This leads to high costs and restricted capabilities. In this report, we initially propose the elastic mixture of the expert (eMoE) model. This model can be trained just once and then be elastically scaled in accordance with deployment requirements. Secondly, we devise an unsupervised data creation and validation procedure and gather millions of hours of audio data from diverse domains for training. Using these two techniques, our system achieves elastic deployment capabilities while reducing the Character Error Rate (CER) on the SpeechIO testsets from 4.98\% to 2.45\%. Thirdly, our model is not only competent in Mandarin speech recognition but also proficient in multilingual, multi-dialect, emotion, gender, and sound event perception. We refer to this as Automatic Speech Perception (ASP), and the perception results are presented in the experimental section.
- Abstract(参考訳): 大規模自動音声認識(ASR)モデルは、トレーニングプロセス中に大量のパラメータ、大量のデータ、重要な計算資源を必要とする。
しかし、そのようなモデルは単に高速なクラウドプラットフォームにデプロイするだけで、音声認識タスクのみを実行することができる。
これにより、高いコストと制限された能力に繋がる。
本稿ではまず,eMoEモデルの弾性混合について述べる。
このモデルは一度だけトレーニングし、デプロイ要求に応じて弾力的にスケールすることができる。
第2に,教師なしデータ作成・検証手順を考案し,多様な領域から何百万時間ものオーディオデータを収集してトレーニングを行う。
これら2つの手法を用いて,SpeechIOテストセットのキャラクタエラー率(CER)を4.98\%から2.45\%に低減し,弾力的展開を実現する。
第3に,本モデルはマンダリン音声認識だけでなく,多言語・多言語・感情・性別・音声事象知覚にも長けている。
本稿では,これをASP(Automatic Speech Perception)と呼び,その認識結果を実験セクションで示す。
関連論文リスト
- STTATTS: Unified Speech-To-Text And Text-To-Speech Model [6.327929516375736]
マルチタスク学習目標と共有パラメータを用いて, ASR と TTS を協調的に学習するためのパラメータ効率のよい手法を提案する。
評価の結果,マルチタスクモデルの性能は,個別に訓練したモデルに匹敵することがわかった。
論文 参考訳(メタデータ) (2024-10-24T10:04:24Z) - Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z) - A Comparative Study of Pre-trained Speech and Audio Embeddings for
Speech Emotion Recognition [0.0]
音声感情認識(SER)には、カスタマーコールの動的分析、メンタルヘルスアセスメント、パーソナライズされた言語学習など、幅広い応用がある。
事前学習されたモデル(PTM)は、音声と音声の領域において大きな可能性を秘めている。これらのモデルから活用された埋め込みは、様々な下流タスクにおけるアプリケーションによるアルゴリズム学習のインプットとして機能する。
本研究では,4つの音声感情データセット(CREMA-D,TESS,SAVEE,Emo-DB)を用いて3つのアルゴリズムを学習し,実験的な分析を行った。
本研究の結果から, 組込みを訓練したアルゴリズムにより, 最高の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-04-22T19:56:35Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Training Keyword Spotters with Limited and Synthesized Speech Data [14.476868092174636]
合成音声のみを用いて訓練された10のキーワードを検出するモデルは、500以上の実例で訓練されたモデルと等価であることを示す。
また、同じ精度に達するためには、スピーチ埋め込みのないモデルを4000以上の実例でトレーニングする必要があることも示しています。
論文 参考訳(メタデータ) (2020-01-31T07:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。