Fugu-MT 論文翻訳(概要): Multi-head Monotonic Chunkwise Attention For Online Speech Recognition

論文の概要: Multi-head Monotonic Chunkwise Attention For Online Speech Recognition

arxiv url: http://arxiv.org/abs/2005.00205v1
Date: Fri, 1 May 2020 04:00:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-08 00:22:12.425374
Title: Multi-head Monotonic Chunkwise Attention For Online Speech Recognition
Title（参考訳）: オンライン音声認識のためのマルチヘッドモノトニックチャンクワイズアテンション
Authors: Baiji Liu and Songjun Cao and Sining Sun and Weibin Zhang and Long Ma
Abstract要約: 我々は,MoChAの改良版であるMTH-MoChAを提案する。 MTH-MoChAは入力シーケンスを小さなチャンクに分割し、チャンク上のマルチヘッドアテンションを計算する。 AISHELL-1データの実験では、提案されたモデルとトレーニング戦略により、MoChAの文字誤り率(CER)がテストセットで8.96%から7.68%に改善された。
参考スコア（独自算出の注目度）: 12.619595173472465
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The attention mechanism of the Listen, Attend and Spell (LAS) model requires the whole input sequence to calculate the attention context and thus is not suitable for online speech recognition. To deal with this problem, we propose multi-head monotonic chunk-wise attention (MTH-MoChA), an improved version of MoChA. MTH-MoChA splits the input sequence into small chunks and computes multi-head attentions over the chunks. We also explore useful training strategies such as LSTM pooling, minimum world error rate training and SpecAugment to further improve the performance of MTH-MoChA. Experiments on AISHELL-1 data show that the proposed model, along with the training strategies, improve the character error rate (CER) of MoChA from 8.96% to 7.68% on test set. On another 18000 hours in-car speech data set, MTH-MoChA obtains 7.28% CER, which is significantly better than a state-of-the-art hybrid system.
Abstract（参考訳）: listen, attend and spell(las)モデルの注意機構は、注意コンテキストを計算するために入力シーケンス全体を必要とするため、オンライン音声認識には適さない。そこで本研究では,MoChAの改良版であるMTH-MoChAを提案する。 MTH-MoChAは入力シーケンスを小さなチャンクに分割し、チャンク上のマルチヘッドアテンションを計算する。また,MLT-MoChAの性能向上のために,LSTMプーリング,最小世界誤差率トレーニング,SpecAugmentなどの有用なトレーニング戦略についても検討する。 AISHELL-1データの実験では、提案されたモデルとトレーニング戦略により、MoChAの文字誤り率(CER)がテストセットで8.96%から7.68%に改善された。 MTH-MoChAは18000時間の車載音声データセットで7.28%のCERを取得でき、これは最先端のハイブリッドシステムよりもはるかに優れている。

関連論文リスト

Robust Persian Digit Recognition in Noisy Environments Using Hybrid CNN-BiGRU Model [1.5566524830295307]
本研究は,雑音条件下でのペルシャ文字の孤立認識(ゼロから9)に対処する。残差畳み込みニューラルネットワークと双方向ゲートユニット(BiGRU)を組み合わせたハイブリッドモデルを提案する。実験の結果、モデルの有効性が98.53%、96.10%、トレーニング、検証、テストセットにおける95.92%の精度で証明された。
論文参考訳（メタデータ） (2024-12-14T15:11:42Z)
MoH: Multi-Head Attention as Mixture-of-Head Attention [63.67734699877724]
我々は、トランスフォーマーモデルのコアであるマルチヘッドアテンション機構をアップグレードし、以前の精度を維持したり、超えたりしながら効率を向上させる。そこで我々は,Mixture-of-Head attention (MoH)を提案する。まず、MoHは各トークンが適切なアテンションヘッドを選択することを可能にし、精度を損なうことなく推論効率を向上させる。
論文参考訳（メタデータ） (2024-10-15T17:59:44Z)
MC-MoE: Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts大言語モデル(MoE-LLM)のためのトレーニング不要なMixture-CompressorであるMC-MoEを提案する。 MC-MoEは、専門家とトークンの両方の重要性を活用して極端な圧縮を実現する。例えば、MC-MoEは2.54ビットで76.6%の圧縮を行い、平均精度損失は3.8%に過ぎなかった。
論文参考訳（メタデータ） (2024-10-08T18:09:38Z)
Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-04T02:41:04Z)
Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文参考訳（メタデータ） (2024-03-14T01:16:32Z)
Multimodal Attention Merging for Improved Speech Recognition and Audio Event Classification [20.206229252251717]
マルチモーダルアテンション・マージ(MAM) MAMは、ASR(Automatic Speech Recognition)モデルの相対的な単語誤り率(WER)を最大6.70%削減する。 Learnable-MAMは、注意行列をマージするためのデータ駆動のアプローチであり、さらに2.90%の相対的なASRのWERの減少と18.42%の相対的なAECの減少をもたらす。
論文参考訳（メタデータ） (2023-12-22T02:08:40Z)
Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。 WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文参考訳（メタデータ） (2023-07-05T05:55:10Z)
Transferring Pre-trained Multimodal Representations with Cross-modal Similarity Matching [49.730741713652435]
本論文では,大規模な事前学習型マルチモーダルモデルの表現を,小さなターゲットモデルに効果的に転送する手法を提案する。教師なしトランスファーでは,教師モデルの表現を学習できるクロスモーダル類似性マッチング(CSM)を導入する。テキストプロンプトをよりよくエンコードするために、入力テキストプロンプトの語彙的曖昧さを軽減するコンテキストベースのプロンプト拡張(CPA)を設計する。
論文参考訳（メタデータ） (2023-01-07T17:24:11Z)
Combining Spatial Clustering with LSTM Speech Models for Multichannel Speech Enhancement [3.730592618611028]
LSTMアーキテクチャを用いたリカレントニューラルネットワークは、大きな単一チャネルノイズ低減を実現することができる。しかし、新しいマイク構成に一般化できる方法でマルチチャネル入力に適用する方法は明らかではない。本稿では,空間分離性能と多チャンネル空間クラスタリングの汎用性を両立させる2つの手法を組み合わせる。
論文参考訳（メタデータ） (2020-12-02T22:37:50Z)
Multimodal Semi-supervised Learning Framework for Punctuation Prediction in Conversational Speech [17.602098162338137]
句読点予測のためのマルチモーダル半教師付き学習手法について検討する。我々は大量の音声およびテキストデータから表現を学習する。 1時間分の音声とテキストデータをトレーニングすると、ベースラインモデルよりも9-18%の絶対的な改善が得られた。
論文参考訳（メタデータ） (2020-08-03T08:13:09Z)
Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。 CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。 RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文参考訳（メタデータ） (2020-04-22T19:08:33Z)
Attention based on-device streaming speech recognition with large speech corpus [16.702653972113023]
大規模(>10K時間)コーパスで学習したモノトニックチャンクワイド・アテンション(MoChA)モデルに基づいて,新しいオンデバイス自動音声認識(ASR)システムを提案する。一般ドメインにおける単語認識率の約90%は、主にコネクショニスト時間分類器(CTC)とクロスエントロピー(CE)の併用訓練を用いて達成した。オンデマンド適応では,MoChAモデルを統計的n-gramモデルに融合し,一般ドメインを含む対象ドメインの平均単語誤り率(WER)を36%向上させることができた。
論文参考訳（メタデータ） (2020-01-02T04:24:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。