論文の概要: Multi-head Monotonic Chunkwise Attention For Online Speech Recognition
- arxiv url: http://arxiv.org/abs/2005.00205v1
- Date: Fri, 1 May 2020 04:00:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 00:22:12.425374
- Title: Multi-head Monotonic Chunkwise Attention For Online Speech Recognition
- Title(参考訳): オンライン音声認識のためのマルチヘッドモノトニックチャンクワイズアテンション
- Authors: Baiji Liu and Songjun Cao and Sining Sun and Weibin Zhang and Long Ma
- Abstract要約: 我々は,MoChAの改良版であるMTH-MoChAを提案する。
MTH-MoChAは入力シーケンスを小さなチャンクに分割し、チャンク上のマルチヘッドアテンションを計算する。
AISHELL-1データの実験では、提案されたモデルとトレーニング戦略により、MoChAの文字誤り率(CER)がテストセットで8.96%から7.68%に改善された。
- 参考スコア(独自算出の注目度): 12.619595173472465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The attention mechanism of the Listen, Attend and Spell (LAS) model requires
the whole input sequence to calculate the attention context and thus is not
suitable for online speech recognition. To deal with this problem, we propose
multi-head monotonic chunk-wise attention (MTH-MoChA), an improved version of
MoChA. MTH-MoChA splits the input sequence into small chunks and computes
multi-head attentions over the chunks. We also explore useful training
strategies such as LSTM pooling, minimum world error rate training and
SpecAugment to further improve the performance of MTH-MoChA. Experiments on
AISHELL-1 data show that the proposed model, along with the training
strategies, improve the character error rate (CER) of MoChA from 8.96% to 7.68%
on test set. On another 18000 hours in-car speech data set, MTH-MoChA obtains
7.28% CER, which is significantly better than a state-of-the-art hybrid system.
- Abstract(参考訳): listen, attend and spell(las)モデルの注意機構は、注意コンテキストを計算するために入力シーケンス全体を必要とするため、オンライン音声認識には適さない。
そこで本研究では,MoChAの改良版であるMTH-MoChAを提案する。
MTH-MoChAは入力シーケンスを小さなチャンクに分割し、チャンク上のマルチヘッドアテンションを計算する。
また,MLT-MoChAの性能向上のために,LSTMプーリング,最小世界誤差率トレーニング,SpecAugmentなどの有用なトレーニング戦略についても検討する。
AISHELL-1データの実験では、提案されたモデルとトレーニング戦略により、MoChAの文字誤り率(CER)がテストセットで8.96%から7.68%に改善された。
MTH-MoChAは18000時間の車載音声データセットで7.28%のCERを取得でき、これは最先端のハイブリッドシステムよりもはるかに優れている。
関連論文リスト
- MoH: Multi-Head Attention as Mixture-of-Head Attention [63.67734699877724]
我々は、トランスフォーマーモデルのコアであるマルチヘッドアテンション機構をアップグレードし、以前の精度を維持したり、超えたりしながら効率を向上させる。
そこで我々は,Mixture-of-Head attention (MoH)を提案する。
まず、MoHは各トークンが適切なアテンションヘッドを選択することを可能にし、精度を損なうことなく推論効率を向上させる。
論文 参考訳(メタデータ) (2024-10-15T17:59:44Z) - MC-MoE: Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts大言語モデル(MoE-LLM)のためのトレーニング不要なMixture-CompressorであるMC-MoEを提案する。
MC-MoEは、専門家とトークンの両方の重要性を活用して極端な圧縮を実現する。
例えば、MC-MoEは2.54ビットで76.6%の圧縮を行い、平均精度損失は3.8%に過ぎなかった。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Multimodal Attention Merging for Improved Speech Recognition and Audio
Event Classification [20.206229252251717]
マルチモーダルアテンション・マージ(MAM)
MAMは、ASR(Automatic Speech Recognition)モデルの相対的な単語誤り率(WER)を最大6.70%削減する。
Learnable-MAMは、注意行列をマージするためのデータ駆動のアプローチであり、さらに2.90%の相対的なASRのWERの減少と18.42%の相対的なAECの減少をもたらす。
論文 参考訳(メタデータ) (2023-12-22T02:08:40Z) - Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised
Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。
WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文 参考訳(メタデータ) (2023-07-05T05:55:10Z) - Combining Spatial Clustering with LSTM Speech Models for Multichannel
Speech Enhancement [3.730592618611028]
LSTMアーキテクチャを用いたリカレントニューラルネットワークは、大きな単一チャネルノイズ低減を実現することができる。
しかし、新しいマイク構成に一般化できる方法でマルチチャネル入力に適用する方法は明らかではない。
本稿では,空間分離性能と多チャンネル空間クラスタリングの汎用性を両立させる2つの手法を組み合わせる。
論文 参考訳(メタデータ) (2020-12-02T22:37:50Z) - Multimodal Semi-supervised Learning Framework for Punctuation Prediction
in Conversational Speech [17.602098162338137]
句読点予測のためのマルチモーダル半教師付き学習手法について検討する。
我々は大量の音声およびテキストデータから表現を学習する。
1時間分の音声とテキストデータをトレーニングすると、ベースラインモデルよりも9-18%の絶対的な改善が得られた。
論文 参考訳(メタデータ) (2020-08-03T08:13:09Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - Attention based on-device streaming speech recognition with large speech
corpus [16.702653972113023]
大規模(>10K時間)コーパスで学習したモノトニックチャンクワイド・アテンション(MoChA)モデルに基づいて,新しいオンデバイス自動音声認識(ASR)システムを提案する。
一般ドメインにおける単語認識率の約90%は、主にコネクショニスト時間分類器(CTC)とクロスエントロピー(CE)の併用訓練を用いて達成した。
オンデマンド適応では,MoChAモデルを統計的n-gramモデルに融合し,一般ドメインを含む対象ドメインの平均単語誤り率(WER)を36%向上させることができた。
論文 参考訳(メタデータ) (2020-01-02T04:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。