論文の概要: HyperConformer: Multi-head HyperMixer for Efficient Speech Recognition
- arxiv url: http://arxiv.org/abs/2305.18281v1
- Date: Mon, 29 May 2023 17:53:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 13:31:22.227087
- Title: HyperConformer: Multi-head HyperMixer for Efficient Speech Recognition
- Title(参考訳): HyperConformer: 効率的な音声認識のためのマルチヘッドハイパーミクサ
- Authors: Florian Mai and Juan Zuluaga-Gomez and Titouan Parcollet and Petr
Motlicek
- Abstract要約: 最先端のASRシステムは、局所的およびグローバルな相互作用を別々にモデル化することで、有望な結果を得た。
ここでは、線形複雑性を示す注意の代替となるHyperMixerを、音声認識のためのConformerアーキテクチャに拡張することで、この問題に対処する。
特に、マルチヘッドのHyperConformerは、Conformerよりも効率的でありながら、同等または高い認識性能を達成する。
- 参考スコア(独自算出の注目度): 13.395404261859385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art ASR systems have achieved promising results by modeling
local and global interactions separately. While the former can be computed
efficiently, global interactions are usually modeled via attention mechanisms,
which are expensive for long input sequences. Here, we address this by
extending HyperMixer, an efficient alternative to attention exhibiting linear
complexity, to the Conformer architecture for speech recognition, leading to
HyperConformer. In particular, multi-head HyperConformer achieves comparable or
higher recognition performance while being more efficient than Conformer in
terms of inference speed, memory, parameter count, and available training data.
HyperConformer achieves a word error rate of 2.9% on Librispeech test-clean
with less than 8M neural parameters and a peak memory during training of 5.7GB,
hence trainable with accessible hardware. Encoder speed is between 38% on
mid-length speech and 56% on long speech faster than an equivalent Conformer.
(The HyperConformer recipe is publicly available in:
https://github.com/speechbrain/speechbrain/tree/develop/recipes/LibriSpeech/ASR/transformer/)
- Abstract(参考訳): 最先端のASRシステムは、局所的およびグローバルな相互作用を別々にモデル化することで、有望な結果を得た。
前者は効率的に計算できるが、大域的な相互作用は通常、長い入力シーケンスに費用がかかる注意機構によってモデル化される。
本稿では,線形複雑性を示す注意の代替となるHyperMixerを,音声認識のためのConformerアーキテクチャに拡張し,HyperConformerを実現する。
特に、マルチヘッドHyperConformerは、推論速度、メモリ、パラメータカウント、利用可能なトレーニングデータの観点から、Conformerよりも効率的でありながら、同等または高い認識性能を達成する。
HyperConformerは5.7GBのトレーニング中に8M未満のニューラルパラメータとピークメモリを持つLibrispeechテストクリーン上で2.9%のワードエラー率を達成する。
エンコーダの速度は、中の長さの音声では38%、長めの音声では56%である。
(https://github.com/speechbrain/tree/develop/recipes/LibriSpeech/ASR/transformer/)
関連論文リスト
- FastAdaSP: Multitask-Adapted Efficient Inference for Large Speech Language Model [43.521309754325685]
各種音声関連タスクに特化して設計された重み付きトークンマージフレームワークであるFastAdaSPを提案する。
FastAdaSPは、感情認識(ER)や音声質問応答(SQA)といったタスクを劣化させることなく、7倍のメモリ効率と1.83倍の復号スループットを達成した。
論文 参考訳(メタデータ) (2024-10-03T21:33:07Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。
我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-25T17:59:54Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - Computing Multiple Image Reconstructions with a Single Hypernetwork [19.573768098158]
本研究では,HyperReconと呼ばれるハイパーネットワークベースの手法を用いて,再構成モデルのトレーニングを行う。
提案手法は,2つの大規模および公開可能なMRIデータセットを用いて,圧縮センシング,超高分解能,高分解能タスクにおける実演を行う。
論文 参考訳(メタデータ) (2022-02-22T16:27:23Z) - Exploring Self-Attention Mechanisms for Speech Separation [11.210834842425955]
本稿では,音声分離のための奥行き変換器について検討する。
SepFormerに関するこれまでの知見は、より難しいノイズとノイズの残響データセットの結果を提供することで拡張します。
最後に,音声分離において,Linformers,Lonformers,ReFormersなどの効率的な自己認識機構の利用を初めて検討する。
論文 参考訳(メタデータ) (2022-02-06T23:13:27Z) - HyperNP: Interactive Visual Exploration of Multidimensional Projection
Hyperparameters [61.354362652006834]
HyperNPは、ニューラルネットワーク近似をトレーニングすることで、プロジェクションメソッドをリアルタイムにインタラクティブに探索できるスケーラブルな方法である。
我々は3つのデータセット間でのHyperNPの性能を,性能と速度の観点から評価した。
論文 参考訳(メタデータ) (2021-06-25T17:28:14Z) - Fast DCTTS: Efficient Deep Convolutional Text-to-Speech [8.276202368107006]
単一CPUスレッド上でリアルタイムに音声を合成するエンドツーエンド音声合成装置Fast DCTTSを提案する。
提案モデルは,複数のネットワーク削減と忠実度向上技術を適用した,慎重に調整された軽量ネットワークで構成されている。
論文 参考訳(メタデータ) (2021-04-01T17:08:01Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。