論文の概要: Speech Recognition by Simply Fine-tuning BERT
- arxiv url: http://arxiv.org/abs/2102.00291v1
- Date: Sat, 30 Jan 2021 19:06:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 23:18:25.420984
- Title: Speech Recognition by Simply Fine-tuning BERT
- Title(参考訳): 簡易微調整BERTによる音声認識
- Authors: Wen-Chin Huang, Chia-Hua Wu, Shang-Bao Luo, Kuan-Yu Chen, Hsin-Min
Wang, Tomoki Toda
- Abstract要約: 大規模な未ラベルテキストデータに基づいて訓練された言語モデル(LM)である細調整BERTによる音声認識(ASR)の簡易な手法を提案する。
最初の研究として、提案したアイデアがAISHELLデータセット上で有効であることを示し、BERT上に非常に単純なAMを積み重ねることで、合理的な性能が得られることを示した。
- 参考スコア(独自算出の注目度): 45.51945040890376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a simple method for automatic speech recognition (ASR) by
fine-tuning BERT, which is a language model (LM) trained on large-scale
unlabeled text data and can generate rich contextual representations. Our
assumption is that given a history context sequence, a powerful LM can narrow
the range of possible choices and the speech signal can be used as a simple
clue. Hence, comparing to conventional ASR systems that train a powerful
acoustic model (AM) from scratch, we believe that speech recognition is
possible by simply fine-tuning a BERT model. As an initial study, we
demonstrate the effectiveness of the proposed idea on the AISHELL dataset and
show that stacking a very simple AM on top of BERT can yield reasonable
performance.
- Abstract(参考訳): 大規模非ラベルテキストデータに訓練された言語モデル(LM)であるBERTを微調整し,リッチな文脈表現を生成する簡易な自動音声認識手法を提案する。
我々の仮定は、歴史文脈列が与えられた場合、強力なLMは選択肢の範囲を狭め、音声信号は単純な手がかりとして使用できるというものである。
したがって,従来の音響モデル(AM)をスクラッチから訓練するシステムと比較して,BERTモデルを微調整するだけで音声認識が可能であると信じている。
初期研究として,提案されたアイデアの有効性をAISHELLデータセット上で実証し,BERT上に非常に単純なAMを積み重ねることで,合理的なパフォーマンスが得られることを示す。
関連論文リスト
- Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Tokenwise Contrastive Pretraining for Finer Speech-to-BERT Alignment in
End-to-End Speech-to-Intent Systems [31.18865184576272]
この作業は、音声の埋め込みとBERTの埋め込みをトークン単位で整列させる、ずっと効率的できめ細かな方法で、これを行うためのステップです。
音声エンコーダからトークンレベルのコンテキスト埋め込みを抽出するために,クロスモーダルアテンション機構を用いた,シンプルながら斬新な手法を提案する。
音声を用いて意図認識を行うための事前訓練モデルの微調整により、2つの広く使用されているSLUデータセット上での最先端の性能が直接得られる。
論文 参考訳(メタデータ) (2022-04-11T15:24:25Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Speak or Chat with Me: End-to-End Spoken Language Understanding System
with Flexible Inputs [21.658650440278063]
本稿では, 音声, ASR 転写文, あるいはその両方から, フレキシブルな入力から意図を予測できる新しいシステムを提案する。
本実験は,これらの事前学習および微調整戦略に有意な優位性を示し,競争目的分類性能を実現するシステムを実現した。
論文 参考訳(メタデータ) (2021-04-07T20:48:08Z) - An Effective Contextual Language Modeling Framework for Speech
Summarization with Augmented Features [13.97006782398121]
変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。
本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。
提案手法の有効性をベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-06-01T18:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。