論文の概要: SpeechStew: Simply Mix All Available Speech Recognition Data to Train
One Large Neural Network
- arxiv url: http://arxiv.org/abs/2104.02133v1
- Date: Mon, 5 Apr 2021 20:13:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 14:23:40.799545
- Title: SpeechStew: Simply Mix All Available Speech Recognition Data to Train
One Large Neural Network
- Title(参考訳): SpeechStew: 大きなニューラルネットワークを訓練するために、すべての利用可能な音声認識データを単純に混ぜる
- Authors: William Chan, Daniel Park, Chris Lee, Yu Zhang, Quoc Le, Mohammad
Norouzi
- Abstract要約: 本研究では,公開音声認識データセットの組み合わせで学習した音声認識モデルである speechstew を提案する。
結果はAMI-IHMの9.0% WER、Switchboardの4.7% WER、CallHomeの8.3% WER、WSJの1.3%である。
また, speechstew が強力な転送学習表現を学習することを示す。
- 参考スコア(独自算出の注目度): 45.59907668722702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SpeechStew, a speech recognition model that is trained on a
combination of various publicly available speech recognition datasets: AMI,
Broadcast News, Common Voice, LibriSpeech, Switchboard/Fisher, Tedlium, and
Wall Street Journal. SpeechStew simply mixes all of these datasets together,
without any special re-weighting or re-balancing of the datasets. SpeechStew
achieves SoTA or near SoTA results across a variety of tasks, without the use
of an external language model. Our results include 9.0\% WER on AMI-IHM, 4.7\%
WER on Switchboard, 8.3\% WER on CallHome, and 1.3\% on WSJ, which
significantly outperforms prior work with strong external language models. We
also demonstrate that SpeechStew learns powerful transfer learning
representations. We fine-tune SpeechStew on a noisy low resource speech
dataset, CHiME-6. We achieve 38.9\% WER without a language model, which
compares to 38.6\% WER to a strong HMM baseline with a language model.
- Abstract(参考訳): 本研究では, ami, broadcast news, common voice, librispeech, switchboard/fisher, tedlium, wall street journalなどの音声認識データセットを組み合わせた音声認識モデルである speechstew を提案する。
SpeechStewは、データセットの特別な再重み付けや再バランスなしに、これらのデータセットをすべて混ぜる。
SpeechStewは、外部言語モデルを用いることなく、様々なタスクでSoTAまたはSoTAに近い結果を達成する。
結果は、AMI-IHMの9.0\% WER、Switchboardの4.7\% WER、CallHomeの8.3\% WER、WSJの1.3\%などです。
また, speechstew が強力な転送学習表現を学習することを示す。
雑音の多い低リソース音声データセットCHiME-6で音声を微調整する。
言語モデルなしで38.9\% WERを達成し、38.6\% WERと強力なHMMベースラインを言語モデルで比較した。
関連論文リスト
- Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond [36.660499609887886]
Speech-MASSIVEは多言語音声言語理解データセットである。
異なるファミリーの12の言語をカバーし、インテント予測とスロットフルタスクのためのアノテーションから継承する。
本稿では,音声の書き起こし,言語識別,音声翻訳などのタスクに対して,Speech-MASSIVEの適性を示す。
論文 参考訳(メタデータ) (2024-08-07T16:55:28Z) - GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement [36.29371629234269]
GigaSpeech 2は大規模多言語音声認識コーパスである。
タイ語、インドネシア語、ベトナム語を含む約3万時間の音声が自動で書き起こされる。
論文 参考訳(メタデータ) (2024-06-17T13:44:20Z) - A Cross-Modal Approach to Silent Speech with LLM-Enhanced Recognition [0.0]
サイレント音声インタフェース(SSI)は、無音音声通信のための脳-コンピュータインタフェースの非侵襲的な代替手段を提供する。
我々は,マルチモーダル・ニューラル・オーディオ(MONA)を導入し,多モーダル・アライメントを利用した多モーダル・モデルの学習を行う。
我々の知る限りでは、オープンボキャブラリ上の非侵襲的無声音声認識が15% WERの閾値をクリアした最初の事例である。
論文 参考訳(メタデータ) (2024-03-02T21:15:24Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - BeAts: Bengali Speech Acts Recognition using Multimodal Attention Fusion [0.0]
我々は,音声のwav2vec2.0とテキスト翻訳のMarianMTの2つのモデルを組み合わせて,音声行動を予測する手法を開発した。
また,我々のモデルであるBeAts(underlinetextbfBe$ngali)がMultimodal $underlinetextbfAt$tention Fu$underlinetextbfs$ionを用いて音声認識を行うことを示す。
論文 参考訳(メタデータ) (2023-06-05T08:12:17Z) - Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot
Task Generalization [61.60501633397704]
本稿では,最近提案されたWebスケール音声モデルのWhisperの創発的能力について検討する。
タスク固有のプロンプトを、別の大規模モデルを活用するか、あるいはデフォルトのプロンプトで特別なトークンを操作するだけで設計する。
実験の結果,提案手法は3つのゼロショットタスクで10%から45%向上し,SotAの教師付きモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-18T16:32:58Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。