論文の概要: Improving Mandarin Speech Recogntion with Block-augmented Transformer
- arxiv url: http://arxiv.org/abs/2207.11697v1
- Date: Sun, 24 Jul 2022 09:23:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 14:12:55.280417
- Title: Improving Mandarin Speech Recogntion with Block-augmented Transformer
- Title(参考訳): ブロック型変圧器によるマンダリン音声認識の改善
- Authors: Xiaoming Ren, Huifeng Zhu, Liuwei Wei, Minghui Wu, Jie Hao
- Abstract要約: 本研究では,各ブロックの相補的情報をパラメータ効率良く活用する方法について検討する。
我々はBlockformerという音声認識のためのBlock-augmented Transformerを提案する。
本モデルでは,言語モデルを用いずにCERを4.35%,テストセット上の外部言語モデルで4.10%を達成する。
- 参考スコア(独自算出の注目度): 5.733912662800822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently Convolution-augmented Transformer (Conformer) has shown promising
results in Automatic Speech Recognition (ASR), outperforming the previous best
published Transformer Transducer. In this work, we believe that the output
information of each block in the encoder and decoder is not completely
inclusive, in other words, their output information may be complementary. We
study how to take advantage of the complementary information of each block in a
parameter-efficient way, and it is expected that this may lead to more robust
performance. Therefore we propose the Block-augmented Transformer for speech
recognition, named Blockformer. We have implemented two block ensemble methods:
the base Weighted Sum of the Blocks Output (Base-WSBO), and the
Squeeze-and-Excitation module to Weighted Sum of the Blocks Output (SE-WSBO).
Experiments have proved that the Blockformer significantly outperforms the
state-of-the-art Conformer-based models on AISHELL-1, our model achieves a CER
of 4.35\% without using a language model and 4.10\% with an external language
model on the testset.
- Abstract(参考訳): 近年,畳み込み型変換器(Conformer)は,従来の最も優れた変換器よりも優れた自動音声認識(ASR)において,有望な結果を示している。
本研究では、エンコーダとデコーダの各ブロックの出力情報は、完全に包括的ではない、つまり、それらの出力情報は相補的であると信じている。
我々は,各ブロックの補完的情報をパラメーター効率良く活用する方法について検討し,それによってより堅牢な性能が期待できることを示す。
そこで我々は,ブロックフォーマーという音声認識用ブロックエイジメントトランスを提案する。
我々は2つのブロックアンサンブル法を実装した: 基本重み付きブロック出力(Base-WSBO)と、重み付きブロック出力(SE-WSBO)に対するSqueeze-and-Excitationモジュール。
実験の結果、BlockformerはAISHELL-1で最先端のConformerベースモデルよりも優れており、我々のモデルは言語モデルを用いずに4.35\%、テストセット上では4.10\%のCERを実現している。
関連論文リスト
- Pureformer-VC: Non-parallel One-Shot Voice Conversion with Pure Transformer Blocks and Triplet Discriminative Training [3.9306467064810438]
ワンショット音声変換は、ターゲット話者の音色を1つの音声サンプルで一致させるために、任意の音源音声の音色を変更することを目的としている。
既存のスタイル転送型VC法は, 音声表現の絡み合いに頼っていた。
本稿では, Conformer ブロックを用いてアンタングル化されたエンコーダを構築する Pureformer-VC と, Zipformer ブロックを用いてスタイル転送デコーダを構築する Zipformer-VC を提案する。
論文 参考訳(メタデータ) (2024-09-03T07:21:19Z) - Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。
MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。
MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-09T08:50:18Z) - Attention or Convolution: Transformer Encoders in Audio Language Models
for Inference Efficiency [43.11829499054574]
音声トランスフォーマエンコーダを用いたより複雑な事前学習モデルに匹敵する推論効率が得られることを示す。
まず,これらの音声変換器をエンコーダとして用いることで,事前学習した音声モデルの効率も向上することを示す。
この単純なアプローチは、ニューラルネットワークの低ビット量量子化技術により、効率を向上する上で特に有益であることを示す。
論文 参考訳(メタデータ) (2023-11-05T21:30:10Z) - Block-wise Bit-Compression of Transformer-based Models [9.77519365079468]
再学習を伴わない変圧器のブロックワイドビット圧縮法であるBBCTを提案する。
GLUE(General Language Understanding Evaluation)のベンチマークテストの結果,ほとんどのタスクにおいて,BBCTは1%未満の精度低下を達成できることがわかった。
論文 参考訳(メタデータ) (2023-03-16T09:53:57Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Adapting Pretrained Transformer to Lattices for Spoken Language
Understanding [39.50831917042577]
ASR(Automatic Speech Recognitionr)が生成した1-best結果とは対照的に格子の符号化により,音声言語理解(SLU)の性能が向上することが示されている。
本稿では,事前学習したトランスフォーマーを格子入力に適用し,音声言語に特化して理解タスクを実行することを目的とする。
論文 参考訳(メタデータ) (2020-11-02T07:14:34Z) - Transformer with Bidirectional Decoder for Speech Recognition [32.56014992915183]
異なる方向の文脈を同時に利用する双方向音声変換器を提案する。
具体的には、提案した変換器の出力には、左から右への目標と右から左への目標が含まれる。
推論段階では、左右の候補を生成でき、左右の候補を生成できる双方向ビームサーチ方式を用いる。
論文 参考訳(メタデータ) (2020-08-11T02:12:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。