Fugu-MT 論文翻訳(概要): Speech Recognition by Simply Fine-tuning BERT

論文の概要: Speech Recognition by Simply Fine-tuning BERT

arxiv url: http://arxiv.org/abs/2102.00291v1
Date: Sat, 30 Jan 2021 19:06:14 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-02 23:18:25.420984
Title: Speech Recognition by Simply Fine-tuning BERT
Title（参考訳）: 簡易微調整BERTによる音声認識
Authors: Wen-Chin Huang, Chia-Hua Wu, Shang-Bao Luo, Kuan-Yu Chen, Hsin-Min Wang, Tomoki Toda
Abstract要約: 大規模な未ラベルテキストデータに基づいて訓練された言語モデル(LM)である細調整BERTによる音声認識(ASR)の簡易な手法を提案する。最初の研究として、提案したアイデアがAISHELLデータセット上で有効であることを示し、BERT上に非常に単純なAMを積み重ねることで、合理的な性能が得られることを示した。
参考スコア（独自算出の注目度）: 45.51945040890376
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a simple method for automatic speech recognition (ASR) by fine-tuning BERT, which is a language model (LM) trained on large-scale unlabeled text data and can generate rich contextual representations. Our assumption is that given a history context sequence, a powerful LM can narrow the range of possible choices and the speech signal can be used as a simple clue. Hence, comparing to conventional ASR systems that train a powerful acoustic model (AM) from scratch, we believe that speech recognition is possible by simply fine-tuning a BERT model. As an initial study, we demonstrate the effectiveness of the proposed idea on the AISHELL dataset and show that stacking a very simple AM on top of BERT can yield reasonable performance.
Abstract（参考訳）: 大規模非ラベルテキストデータに訓練された言語モデル(LM)であるBERTを微調整し,リッチな文脈表現を生成する簡易な自動音声認識手法を提案する。我々の仮定は、歴史文脈列が与えられた場合、強力なLMは選択肢の範囲を狭め、音声信号は単純な手がかりとして使用できるというものである。したがって,従来の音響モデル(AM)をスクラッチから訓練するシステムと比較して,BERTモデルを微調整するだけで音声認識が可能であると信じている。初期研究として,提案されたアイデアの有効性をAISHELLデータセット上で実証し,BERT上に非常に単純なAMを積み重ねることで,合理的なパフォーマンスが得られることを示す。

関連論文リスト

Transcript-Prompted Whisper with Dictionary-Enhanced Decoding for Japanese Speech Annotation [4.314729314139958]
音声と韻律のラベルを与えられた音声と音声のペアにアノテートする方法を提案する。音韻ラベリングにおける誤りの訂正に辞書事前知識を用いた復号方式を用いる。提案手法を用いてアノテートしたラベルで訓練したTTSモデルにより合成された音声の自然性は,手動のアノテーションで訓練したモデルに匹敵することを示す。
論文参考訳（メタデータ） (2025-06-09T11:10:24Z)
Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文参考訳（メタデータ） (2024-09-30T07:01:21Z)
SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。音声処理タスクを音声単位生成タスクに再構成する。提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文参考訳（メタデータ） (2024-08-23T13:00:10Z)
dMel: Speech Tokenization made Simple [19.169460770473908]
メル-フィルターバンクチャネルを離散強度ビンに分割すると、単純な表現(dMel)が生成されることを示す。本結果は,dMelが統合されたフレームワーク内の両方のタスクにおいて高い性能を実現する上で有効であることを示す。
論文参考訳（メタデータ） (2024-07-22T17:51:53Z)
Improved Contextual Recognition In Automatic Speech Recognition Systems By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文参考訳（メタデータ） (2023-10-14T23:16:05Z)
On decoder-only architecture for speech-to-text and large language model integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文参考訳（メタデータ） (2023-07-08T06:47:58Z)
VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文参考訳（メタデータ） (2022-11-21T09:10:10Z)
Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文参考訳（メタデータ） (2021-09-19T16:39:22Z)
Speak or Chat with Me: End-to-End Spoken Language Understanding System with Flexible Inputs [21.658650440278063]
本稿では, 音声, ASR 転写文, あるいはその両方から, フレキシブルな入力から意図を予測できる新しいシステムを提案する。本実験は,これらの事前学習および微調整戦略に有意な優位性を示し,競争目的分類性能を実現するシステムを実現した。
論文参考訳（メタデータ） (2021-04-07T20:48:08Z)
An Effective Contextual Language Modeling Framework for Speech Summarization with Augmented Features [13.97006782398121]
変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。提案手法の有効性をベンチマークデータセットで検証する。
論文参考訳（メタデータ） (2020-06-01T18:27:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。