論文の概要: Multi-Encoder Learning and Stream Fusion for Transformer-Based
End-to-End Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2104.00120v1
- Date: Wed, 31 Mar 2021 21:07:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:49:50.476331
- Title: Multi-Encoder Learning and Stream Fusion for Transformer-Based
End-to-End Automatic Speech Recognition
- Title(参考訳): トランス・エンド・ツー・エンド自動音声認識のためのマルチエンコーダ学習とストリーム融合
- Authors: Timo Lohrenz, Zhengyang Li, Tim Fingscheidt
- Abstract要約: トランスと呼ばれるオールアテンテンション型エンコーダデコーダアーキテクチャの様々な融合技術について検討する。
トレーニング中にのみ2つのエンコーダデコーダマルチヘッドアテンション出力の重み付き組み合わせを実行する新しいマルチエンコーダ学習方法を紹介します。
ウォールストリートジャーナルのトランスベースモデルの最先端のパフォーマンスを実現し、現在のベンチマークアプローチと比較して19%のWER削減を実現しました。
- 参考スコア(独自算出の注目度): 30.941564693248512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stream fusion, also known as system combination, is a common technique in
automatic speech recognition for traditional hybrid hidden Markov model
approaches, yet mostly unexplored for modern deep neural network end-to-end
model architectures. Here, we investigate various fusion techniques for the
all-attention-based encoder-decoder architecture known as the transformer,
striving to achieve optimal fusion by investigating different fusion levels in
an example single-microphone setting with fusion of standard magnitude and
phase features. We introduce a novel multi-encoder learning method that
performs a weighted combination of two encoder-decoder multi-head attention
outputs only during training. Employing then only the magnitude feature encoder
in inference, we are able to show consistent improvement on Wall Street Journal
(WSJ) with language model and on Librispeech, without increase in runtime or
parameters. Combining two such multi-encoder trained models by a simple late
fusion in inference, we achieve state-of-the-art performance for
transformer-based models on WSJ with a significant WER reduction of 19\%
relative compared to the current benchmark approach.
- Abstract(参考訳): ストリーム融合(stream fusion)は、システム結合(system combination)としても知られ、従来のハイブリッド隠れマルコフモデルアプローチの自動音声認識において一般的な技術であるが、現代のディープニューラルネットワークのエンドツーエンドモデルアーキテクチャでは、ほとんど研究されていない。
本稿では, コンバータとして知られる全アテンション型エンコーダデコーダアーキテクチャの様々な融合技術について検討し, 標準等級と位相特性の融合を用いた単一マイクロホンの例において, 異なる融合レベルを探索して最適な融合を実現する。
本稿では,2つのエンコーダとデコーダの重み付けを組み合わせたマルチエンコーダ学習手法を提案する。
その際、推測における大きさのフィーチャエンコーダのみを用いることで、Wall Street Journal(WSJ)と言語モデル、およびLibrispeechで一貫した改善をランタイムやパラメータの増加なしに示すことができます。
これら2つのマルチエンコーダトレーニングモデルを単純な遅延融合で組み合わせることで、WSJ上のトランスフォーマーベースモデルの最先端性能と、現在のベンチマーク手法と比較して19倍のWER削減を実現している。
関連論文リスト
- U-MixFormer: UNet-like Transformer with Mix-Attention for Efficient
Semantic Segmentation [0.0]
CNNベースのU-Netは、高解像度の医療画像とリモートセンシングにおいて大きな進歩を遂げている。
この2つの成功は、両方の長所をマージするきっかけとなり、U-Netベースの視覚変換器デコーダが誕生しました。
本稿では,U-Net構造上に構築され,効率的なセマンティックセグメンテーションのために設計された新しいトランスフォーマデコーダU-MixFormerを提案する。
論文 参考訳(メタデータ) (2023-12-11T10:19:42Z) - Transformer Fusion with Optimal Transport [25.022849817421964]
Fusionは、独立に訓練された複数のニューラルネットワークをマージして、それらの能力を組み合わせる技術である。
本稿では, トランスポートを利用した2つ以上のトランスフォーマーネットワークを (ソフト) に融合させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-09T13:40:31Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - Adaptive re-calibration of channel-wise features for Adversarial Audio
Classification [0.0]
合成音声検出のための注意特徴融合を用いた特徴量の再検討を提案する。
本研究では,End2EndモデルやResnetベースモデルなど,さまざまな検出手法との比較を行った。
また,線形周波数ケプストラム係数 (LFCC) とメル周波数ケプストラム係数 (MFCC) の組み合わせにより,より優れた入力特徴表現が得られることを示した。
論文 参考訳(メタデータ) (2022-10-21T04:21:56Z) - Multimodal Image Fusion based on Hybrid CNN-Transformer and Non-local
Cross-modal Attention [12.167049432063132]
本稿では,畳み込みエンコーダとトランスフォーマーベースのデコーダを組み合わせたハイブリッドモデルを提案する。
分岐融合モジュールは、2つの枝の特徴を適応的に融合させるように設計されている。
論文 参考訳(メタデータ) (2022-10-18T13:30:52Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。
我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文 参考訳(メタデータ) (2020-11-02T04:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。