論文の概要: Are Transformers in Pre-trained LM A Good ASR Encoder? An Empirical Study
- arxiv url: http://arxiv.org/abs/2409.17750v1
- Date: Thu, 26 Sep 2024 11:31:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 19:53:49.712026
- Title: Are Transformers in Pre-trained LM A Good ASR Encoder? An Empirical Study
- Title(参考訳): LMのトランスフォーマーは良いASRエンコーダか? : 実証的研究
- Authors: Keyu An, Shiliang Zhang, Zhijie Yan,
- Abstract要約: 自動音声認識(ASR)のためのエンコーダとして再利用された事前訓練言語モデル(PLM)内のトランスフォーマー
本研究は,事前学習したLMのトランスフォーマーを組み込んだASRタスクにおいて,文字誤り率 (CER) とワード誤り率 (WER) の顕著な改善が認められた。
このことは、事前訓練されたトランスフォーマーに埋め込まれたセマンティックな技術を活用して、ASRシステムの能力を向上させる可能性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 52.91899050612153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we delve into the efficacy of transformers within pre-trained language models (PLMs) when repurposed as encoders for Automatic Speech Recognition (ASR). Our underlying hypothesis posits that, despite being initially trained on text-based corpora, these transformers possess a remarkable capacity to extract effective features from the input sequence. This inherent capability, we argue, is transferrable to speech data, thereby augmenting the acoustic modeling ability of ASR. Through rigorous empirical analysis, our findings reveal a notable improvement in Character Error Rate (CER) and Word Error Rate (WER) across diverse ASR tasks when transformers from pre-trained LMs are incorporated. Particularly, they serve as an advantageous starting point for initializing ASR encoders. Furthermore, we uncover that these transformers, when integrated into a well-established ASR encoder, can significantly boost performance, especially in scenarios where profound semantic comprehension is pivotal. This underscores the potential of leveraging the semantic prowess embedded within pre-trained transformers to advance ASR systems' capabilities.
- Abstract(参考訳): 本研究では,事前学習言語モデル (PLM) におけるトランスフォーマの有効性を,自動音声認識 (ASR) のエンコーダとして再利用する際の検討を行った。
我々の仮説は、当初テキストベースのコーパスで訓練されていたにもかかわらず、これらのトランスフォーマーは入力シーケンスから効果的な特徴を抽出する顕著な能力を持っていることを示唆している。
この本質的な能力は、音声データに転送可能であり、それによってASRの音響モデリング能力を増強する。
厳密な経験的分析により,事前学習したLMからのトランスフォーマーを組み込んだ場合,多種多様なASRタスクにおける文字誤り率(CER)と単語誤り率(WER)の顕著な改善が示された。
特に、ASRエンコーダを初期化するための有利な出発点として機能する。
さらに、よく確立されたASRエンコーダに統合されたこれらのトランスフォーマーは、特に深いセマンティック理解が重要となるシナリオにおいて、性能を大幅に向上させることができることを明らかにした。
このことは、事前訓練されたトランスフォーマーに埋め込まれたセマンティックな技術を活用して、ASRシステムの能力を向上させる可能性を浮き彫りにしている。
関連論文リスト
- Transformers to Predict the Applicability of Symbolic Integration Routines [0.0]
我々は、このタスクをコンピュータシステムで最適化するために機械学習がどのように使われるかを検討する。
我々は、特定の統合手法が成功するかどうかを予測するトランスフォーマーを訓練し、既存の人造アルジェブラと比較する。
変換器はこれらのガードより優れており、最大30%の精度と70%の精度が得られる。
論文 参考訳(メタデータ) (2024-10-31T14:03:37Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Finetuning Pretrained Transformers into Variational Autoencoders [0.0]
テキスト変分オートエンコーダ(VAE)は後部崩壊で有名である。
トランスフォーマーはテキストVAEのコンポーネントとして限定的に採用されている。
そこで本研究では,シーケンス・ツー・シーケンス・トランスフォーマーをVAEに変換するための2段階の簡単なトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-08-05T08:27:26Z) - Stacked Acoustic-and-Textual Encoding: Integrating the Pre-trained
Models into Speech Translation Encoders [30.160261563657947]
エンドツーエンドの音声翻訳では、事前トレーニングが有望です。
Stackedを提案します。
音声翻訳のための音響・テキスト(SATE)法
エンコーダはアコースティックシーケンスを通常どおりに処理することから始まり、その後はアコースティックシーケンスのように振る舞う。
MTエンコーダは入力シーケンスのグローバル表現である。
論文 参考訳(メタデータ) (2021-05-12T16:09:53Z) - Non-autoregressive Transformer-based End-to-end ASR using BERT [13.07939371864781]
本稿では、BERTに基づく変換器に基づくエンドツーエンド自動音声認識(ASR)モデルを提案する。
AISHELL-1データセットで実施された一連の実験は、競争力または優れた結果を示している。
論文 参考訳(メタデータ) (2021-04-10T16:22:17Z) - Transformer-based ASR Incorporating Time-reduction Layer and Fine-tuning
with Self-Knowledge Distillation [11.52842516726486]
本稿では,トランスエンコーダ層に時間削減層を組み込んだTransformer-based ASRモデルを提案する。
また、自己知識蒸留(S-KD)を用いた事前学習型ASRモデルの微調整手法を導入し、ASRモデルの性能をさらに向上させる。
言語モデル(LM)融合により、トランスフォーマーベースのASRモデルのための最新の単語誤り率(WER)結果を達成します。
論文 参考訳(メタデータ) (2021-03-17T21:02:36Z) - Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input [54.82369261350497]
CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。
実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
論文 参考訳(メタデータ) (2020-10-28T15:00:09Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。