論文の概要: E-Branchformer: Branchformer with Enhanced merging for speech
recognition
- arxiv url: http://arxiv.org/abs/2210.00077v1
- Date: Fri, 30 Sep 2022 20:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 17:22:00.595742
- Title: E-Branchformer: Branchformer with Enhanced merging for speech
recognition
- Title(参考訳): E-Branchformer:音声認識のための統合強化ブランチフォーマ
- Authors: Kwangyoun Kim, Felix Wu, Yifan Peng, Jing Pan, Prashant Sridhar, Kyu
J. Han, Shinji Watanabe
- Abstract要約: 本稿では,効果的なマージ手法を適用し,追加のポイントワイドモジュールを積み重ねることでブランチフォーマを強化するE-Branchformerを提案する。
E-Branchformerは新しい最先端ワードエラー率(WER)1.81%と3.65%を、外部のトレーニングデータを使用しずにLibriSpeechテストクリーンおよび他のセットで設定する。
- 参考スコア(独自算出の注目度): 46.14282465455242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conformer, combining convolution and self-attention sequentially to capture
both local and global information, has shown remarkable performance and is
currently regarded as the state-of-the-art for automatic speech recognition
(ASR). Several other studies have explored integrating convolution and
self-attention but they have not managed to match Conformer's performance. The
recently introduced Branchformer achieves comparable performance to Conformer
by using dedicated branches of convolution and self-attention and merging local
and global context from each branch. In this paper, we propose E-Branchformer,
which enhances Branchformer by applying an effective merging method and
stacking additional point-wise modules. E-Branchformer sets new
state-of-the-art word error rates (WERs) 1.81% and 3.65% on LibriSpeech
test-clean and test-other sets without using any external training data.
- Abstract(参考訳): convolutionとself-attentionを順次組み合わせてローカル情報とグローバル情報の両方を捉えるconformerは、目覚ましい性能を示しており、現在、自動音声認識(asr)の最先端技術と見なされている。
コンボリューションとセルフアテンションの統合を探求した研究はいくつかあるが、コンフォメータのパフォーマンスには一致していない。
最近導入されたbranchformerはconvolutionとself-attentionの専用のブランチを使用して、各ブランチからローカルとグローバルコンテキストをマージすることで、conformerと同等のパフォーマンスを実現している。
本稿では,効果的なマージ手法を適用し,ポイントワイズモジュールを積み重ねることでブランチフォーマを強化するe-branchformerを提案する。
E-Branchformerは新しい最先端ワードエラー率(WER)1.81%と3.65%を、外部トレーニングデータを使用しずにLibriSpeechテストクリーンおよび他のセットで設定する。
関連論文リスト
- reCSE: Portable Reshaping Features for Sentence Embedding in Self-supervised Contrastive Learning [1.4604134018640291]
特徴再構成に基づく自己教師付きコントラスト学習文表現フレームワークreCSEを提案する。
このフレームワークは、離散データ拡張メソッドを使用する現在の高度なモデルとは異なる。
我々のreCSEはセマンティック類似性タスクにおける競合性能を達成した。
論文 参考訳(メタデータ) (2024-08-09T09:56:30Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - A Comparative Study on E-Branchformer vs Conformer in Speech
Recognition, Translation, and Understanding Tasks [45.01428297033315]
Conformerは畳み込み拡張トランスフォーマーであり、音声処理のためのデファクトエンコーダアーキテクチャとなっている。
最近、E-Branchformerと呼ばれる新しいエンコーダが、ASRベンチマークでConformerを上回っている。
この研究は、E-Branchformer と Conformer を比較し、様々なタイプのエンドツーエンドシーケンス・ツー・シーケンスモデルを用いて広範な実験を行った。
論文 参考訳(メタデータ) (2023-05-18T16:00:48Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Branchformer: Parallel MLP-Attention Architectures to Capture Local and
Global Context for Speech Recognition and Understanding [41.928263518867816]
コンフォーマーは多くの音声処理タスクに有効であることが証明されている。
そこで我々は,より柔軟で解釈可能でカスタマイズ可能なエンコーダであるブランチフォーマーを提案する。
論文 参考訳(メタデータ) (2022-07-06T21:08:10Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。