論文の概要: A Comparative Study on E-Branchformer vs Conformer in Speech
Recognition, Translation, and Understanding Tasks
- arxiv url: http://arxiv.org/abs/2305.11073v1
- Date: Thu, 18 May 2023 16:00:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 14:21:05.724510
- Title: A Comparative Study on E-Branchformer vs Conformer in Speech
Recognition, Translation, and Understanding Tasks
- Title(参考訳): 音声認識・翻訳・理解課題におけるE-Branchformer vs. Conformerの比較検討
- Authors: Yifan Peng, Kwangyoun Kim, Felix Wu, Brian Yan, Siddhant Arora,
William Chen, Jiyang Tang, Suwon Shon, Prashant Sridhar, Shinji Watanabe
- Abstract要約: Conformerは畳み込み拡張トランスフォーマーであり、音声処理のためのデファクトエンコーダアーキテクチャとなっている。
最近、E-Branchformerと呼ばれる新しいエンコーダが、ASRベンチマークでConformerを上回っている。
この研究は、E-Branchformer と Conformer を比較し、様々なタイプのエンドツーエンドシーケンス・ツー・シーケンスモデルを用いて広範な実験を行った。
- 参考スコア(独自算出の注目度): 45.01428297033315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conformer, a convolution-augmented Transformer variant, has become the de
facto encoder architecture for speech processing due to its superior
performance in various tasks, including automatic speech recognition (ASR),
speech translation (ST) and spoken language understanding (SLU). Recently, a
new encoder called E-Branchformer has outperformed Conformer in the LibriSpeech
ASR benchmark, making it promising for more general speech applications. This
work compares E-Branchformer and Conformer through extensive experiments using
different types of end-to-end sequence-to-sequence models. Results demonstrate
that E-Branchformer achieves comparable or better performance than Conformer in
almost all evaluation sets across 15 ASR, 2 ST, and 3 SLU benchmarks, while
being more stable during training. We will release our training configurations
and pre-trained models for reproducibility, which can benefit the speech
community.
- Abstract(参考訳): convolution-augmented transformer 変種である conformer は、音声認識 (asr)、音声翻訳 (st)、音声言語理解 (slu) といった様々なタスクにおいて優れた性能を持つため、音声処理のデファクトエンコーダアーキテクチャとなっている。
最近、E-Branchformerと呼ばれる新しいエンコーダが、LibriSpeech ASRベンチマークでConformerより優れており、より一般的な音声アプリケーションに期待できる。
この研究は、E-Branchformer と Conformer を比較し、様々なタイプのエンドツーエンドシーケンス・ツー・シーケンスモデルを用いて広範な実験を行った。
その結果,15 ASR, 2 ST, 3 SLU ベンチマークのほぼすべての評価セットにおいて,E-Branchformer は Conformer と同等あるいは同等の性能を示した。
私たちは、再現性のためのトレーニング設定と事前訓練されたモデルをリリースします。
関連論文リスト
- Multi-Convformer: Extending Conformer with Multiple Convolution Kernels [64.4442240213399]
我々は,マルチコンバータを導入し,複数のコンバータカーネルをゲーティングと合わせてコンバータの畳み込みモジュール内で利用する。
我々のモデルは、よりパラメータ効率の良いCgMLPやE-Branchformerといった既存のConformerと性能的に競合する。
我々は4つの異なるデータセットと3つの異なるモデリングパラダイムにまたがって、我々のアプローチをConformerとその変種と経験的に比較し、最大8%の相対的な単語誤り率(WER)の改善を示す。
論文 参考訳(メタデータ) (2024-07-04T08:08:12Z) - Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations [16.577870835480585]
本稿では、離散符号を用いたASRシステム構築に関する総合的な分析を行う。
本稿では,量子化スキームや時間領域,スペクトル特徴符号化などの異なる手法について検討する。
同様のビットレートでEncodecを上回るパイプラインを導入する。
論文 参考訳(メタデータ) (2024-07-03T20:51:41Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - E-Branchformer: Branchformer with Enhanced merging for speech
recognition [46.14282465455242]
本稿では,効果的なマージ手法を適用し,追加のポイントワイドモジュールを積み重ねることでブランチフォーマを強化するE-Branchformerを提案する。
E-Branchformerは新しい最先端ワードエラー率(WER)1.81%と3.65%を、外部のトレーニングデータを使用しずにLibriSpeechテストクリーンおよび他のセットで設定する。
論文 参考訳(メタデータ) (2022-09-30T20:22:15Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Adapting Pretrained Transformer to Lattices for Spoken Language
Understanding [39.50831917042577]
ASR(Automatic Speech Recognitionr)が生成した1-best結果とは対照的に格子の符号化により,音声言語理解(SLU)の性能が向上することが示されている。
本稿では,事前学習したトランスフォーマーを格子入力に適用し,音声言語に特化して理解タスクを実行することを目的とする。
論文 参考訳(メタデータ) (2020-11-02T07:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。