論文の概要: SummaryMixing: A Linear-Complexity Alternative to Self-Attention for
Speech Recognition and Understanding
- arxiv url: http://arxiv.org/abs/2307.07421v2
- Date: Wed, 17 Jan 2024 16:12:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 21:16:42.145838
- Title: SummaryMixing: A Linear-Complexity Alternative to Self-Attention for
Speech Recognition and Understanding
- Title(参考訳): SummaryMixing: 音声認識と理解のための自己認識に代わる線形複雑度
- Authors: Titouan Parcollet and Rogier van Dalen and Shucong Zhang and Sourav
Bhattacharya
- Abstract要約: 本稿では,ASRに対する自己注意の新たな線形時間代替法を提案する。
すべての時間ステップの平均オーバーベクターとの発話を要約する。
この単一の要約は、時間固有の情報と結合される。
- 参考スコア(独自算出の注目度): 18.964617422777437
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern speech processing systems rely on self-attention. Unfortunately, token
mixing with self-attention takes quadratic time in the length of the speech
utterance, slowing down inference as well as training and increasing memory
consumption. Cheaper alternatives to self-attention for ASR have been
developed, but they fail to consistently reach the same level of accuracy. This
paper, therefore, proposes a novel linear-time alternative to self-attention.
It summarises an utterance with the mean over vectors for all time steps. This
single summary is then combined with time-specific information. We call this
method "SummaryMixing". Introducing SummaryMixing in state-of-the-art ASR
models makes it feasible to preserve or exceed previous speech recognition
performance while lowering the training and inference times by up to 28$\%$ and
reducing the memory budget by a factor of two. The benefits of SummaryMixing
can also be generalized to other speech-processing tasks, such as speech
understanding.
- Abstract(参考訳): 現代の音声処理システムは自己注意に依存している。
残念ながら、自己注意によるトークンの混合は、発話の長さにおいて2次時間を要するため、推論が遅くなり、トレーニングが遅くなり、メモリ消費が増加する。
ASRの自己注意に代わる安全な代替案が開発されているが、常に同じレベルの精度に達することは出来ていない。
そこで本稿では,自己注意に代わる新しい線形時間法を提案する。
これは全ての時間ステップに対して平均オーバーベクターと発話を要約する。
この単一の要約は、時間固有の情報と組み合わせられる。
この手法を "summarymixing" と呼ぶ。
現状のASRモデルにおけるScriseMixingの導入により、トレーニングと推論時間を最大28$\%まで下げ、メモリ予算を2倍に削減しながら、従来の音声認識性能を維持または超えることが可能となる。
要約ミキシングの利点は、音声理解などの他の音声処理タスクにも一般化することができる。
関連論文リスト
- Continuously Learning New Words in Automatic Speech Recognition [64.03177537617113]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - Bypass Temporal Classification: Weakly Supervised Automatic Speech
Recognition with Imperfect Transcripts [44.16141704545044]
本稿では,不完全な学習データを用いた音声認識モデル(ASR)を構築するための新しいアルゴリズムを提案する。
提案アルゴリズムは、特に不正確に転写された音声コーパスを扱う場合、ASRシステムの堅牢性と精度を向上させる。
論文 参考訳(メタデータ) (2023-06-01T14:56:19Z) - Improving the Gap in Visual Speech Recognition Between Normal and Silent
Speech Based on Metric Learning [11.50011780498048]
本稿では,視覚音声認識(VSR)における正常音声と無声音声のパフォーマンスギャップに対処する新しい距離学習手法を提案する。
本稿では,通常の音声とサイレント音声の共有リテラルコンテンツを活用し,ビセムに基づく計量学習手法を提案する。
本手法は,限られた訓練データであってもサイレントVSRの精度が向上することを示す。
論文 参考訳(メタデータ) (2023-05-23T16:20:46Z) - Exploring Self-Attention Mechanisms for Speech Separation [11.210834842425955]
本稿では,音声分離のための奥行き変換器について検討する。
SepFormerに関するこれまでの知見は、より難しいノイズとノイズの残響データセットの結果を提供することで拡張します。
最後に,音声分離において,Linformers,Lonformers,ReFormersなどの効率的な自己認識機構の利用を初めて検討する。
論文 参考訳(メタデータ) (2022-02-06T23:13:27Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Directed Speech Separation for Automatic Speech Recognition of Long Form
Conversational Speech [10.291482850329892]
混合信号から直接抽出した話者埋め込みに基づいて訓練された話者条件付きセパレータを提案する。
また,会話データに対する単語誤り率 (WER) の大幅な改善を実現した。
論文 参考訳(メタデータ) (2021-12-10T23:07:48Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。