論文の概要: Sumformer: A Linear-Complexity Alternative to Self-Attention for Speech
Recognition
- arxiv url: http://arxiv.org/abs/2307.07421v1
- Date: Wed, 12 Jul 2023 12:51:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 13:21:34.252409
- Title: Sumformer: A Linear-Complexity Alternative to Self-Attention for Speech
Recognition
- Title(参考訳): sumformer : 音声認識のためのセルフアテンションに代わる線形複合性
- Authors: Titouan Parcollet and Rogier van Dalen and Shucong Zhang and Sourav
Bhattacharya
- Abstract要約: 本稿では,音声認識における自己認識に代わる線形時間的代替手法を提案する。
すべての時間ステップの平均オーバーベクターと全発話を要約する。
この単一の要約は、時間固有の情報と結合される。
- 参考スコア(独自算出の注目度): 15.81220702717831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern speech recognition systems rely on self-attention. Unfortunately,
token mixing with self-attention takes quadratic time in the length of the
speech utterance, slowing down inference as well as training and increasing
memory consumption. Cheaper alternatives to self-attention for ASR have been
developed, but fail to consistently reach the same level of accuracy. In
practice, however, the self-attention weights of trained speech recognizers
take the form of a global average over time. This paper, therefore, proposes a
linear-time alternative to self-attention for speech recognition. It summarises
a whole utterance with the mean over vectors for all time steps. This single
summary is then combined with time-specific information. We call this method
``Summary Mixing''. Introducing Summary Mixing in state-of-the-art ASR models
makes it feasible to preserve or exceed previous speech recognition performance
while lowering the training and inference times by up to 27% and reducing the
memory budget by a factor of two.
- Abstract(参考訳): 現代の音声認識システムは自己認識に依存している。
残念ながら、自己注意によるトークンの混合は、発話の長さにおいて2次時間を要するため、推論が遅くなり、トレーニングが遅くなり、メモリ消費が増加する。
ASRの自己注意に代わる安全な代替案が開発されているが、常に同じレベルの精度に達することは出来ていない。
しかし実際には、訓練された音声認識者の自己注意重みは、時間とともに世界平均の形をとる。
そこで本稿では,音声認識のための線形時間代替手法を提案する。
これは全ての時間ステップに対して平均オーバーベクターと全発話を要約する。
この単一の要約は、時間固有の情報と組み合わせられる。
私たちはこのメソッドを ``Summary Mixing'' と呼ぶ。
最新のASRモデルにおける要約混合の導入により、トレーニング時間と推論時間を最大27%削減し、メモリ予算を2倍に削減しつつ、従来の音声認識性能を維持または超えることが可能となる。
関連論文リスト
- SSR: Alignment-Aware Modality Connector for Speech Language Models [23.859649312290447]
事前訓練された言語モデル(SpeechLM)に音声を融合することは、通常、長文音声の非効率な符号化や、事前訓練されたテキストのモダリティの破滅的な忘れ込みに悩まされる。
そこで我々は,SSR-Connector (Segmented Speech Representation Connector) を提案する。
論文 参考訳(メタデータ) (2024-09-30T19:17:46Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Linear Time Complexity Conformers with SummaryMixing for Streaming Speech Recognition [15.302106458232878]
SummaryMixingは、非ストリーミング音声認識のための自己注意に代わる、有望な線形時間複雑性である。
この作業は、SlimiseMixingをストリーミングとオフラインモードの両方で動作するConformer Transducerに拡張する。
この新たな線形時間複雑性音声エンコーダは、両方のシナリオにおいて自己注意よりも優れていた。
論文 参考訳(メタデータ) (2024-09-11T10:24:43Z) - Transcription-Free Fine-Tuning of Speech Separation Models for Noisy and Reverberant Multi-Speaker Automatic Speech Recognition [18.50957174600796]
重なり合う話者の自動音声認識(ASR)の解決策は、音声を分離し、分離された信号でASRを実行することである。
現在、セパレータはASR性能を劣化させるアーティファクトを生産している。
本稿では,音声信号のみを用いた共同学習のための書き起こし不要手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T08:20:58Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - Improving the Gap in Visual Speech Recognition Between Normal and Silent
Speech Based on Metric Learning [11.50011780498048]
本稿では,視覚音声認識(VSR)における正常音声と無声音声のパフォーマンスギャップに対処する新しい距離学習手法を提案する。
本稿では,通常の音声とサイレント音声の共有リテラルコンテンツを活用し,ビセムに基づく計量学習手法を提案する。
本手法は,限られた訓練データであってもサイレントVSRの精度が向上することを示す。
論文 参考訳(メタデータ) (2023-05-23T16:20:46Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - Directed Speech Separation for Automatic Speech Recognition of Long Form
Conversational Speech [10.291482850329892]
混合信号から直接抽出した話者埋め込みに基づいて訓練された話者条件付きセパレータを提案する。
また,会話データに対する単語誤り率 (WER) の大幅な改善を実現した。
論文 参考訳(メタデータ) (2021-12-10T23:07:48Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。