論文の概要: Front-End Adapter: Adapting Front-End Input of Speech based
Self-Supervised Learning for Speech Recognition
- arxiv url: http://arxiv.org/abs/2302.09331v1
- Date: Sat, 18 Feb 2023 13:46:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 19:14:03.356951
- Title: Front-End Adapter: Adapting Front-End Input of Speech based
Self-Supervised Learning for Speech Recognition
- Title(参考訳): フロントエンドアダプタ:音声認識のための音声ベース自己教師付き学習のフロントエンド入力適応
- Authors: Xie Chen, Ziyang Ma, Changli Tang, Yujin Wang, Zhisheng Zheng
- Abstract要約: 音声ベースのSSLモデルは、様々な音声関連タスクで有望なパフォーマンスを示す。
事前トレーニングと微調整の間、一貫したフロントエンド入力を使用することが不可欠である。
本稿では,このフロントエンドの相違に対処する,シンプルだが効果的なフロントエンドアダプタを提案する。
- 参考スコア(独自算出の注目度): 6.238268985570237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed a boom in self-supervised learning (SSL) in
various areas including speech processing. Speech based SSL models present
promising performance in a range of speech related tasks. However, the training
of SSL models is computationally expensive and a common practice is to
fine-tune a released SSL model on the specific task. It is essential to use
consistent front-end input during pre-training and fine-tuning. This
consistency may introduce potential issues when the optimal front-end is not
the same as that used in pre-training. In this paper, we propose a simple but
effective front-end adapter to address this front-end discrepancy. By
minimizing the distance between the outputs of different front-ends, the
filterbank feature (Fbank) can be compatible with SSL models which are
pre-trained with waveform. The experiment results demonstrate the effectiveness
of our proposed front-end adapter on several popular SSL models for the speech
recognition task.
- Abstract(参考訳): 近年,音声処理を含む様々な分野で,自己教師型学習(SSL)のブームが見られた。
音声ベースのSSLモデルは、様々な音声関連タスクで有望なパフォーマンスを示す。
しかし、SSLモデルのトレーニングは計算コストが高く、特定のタスクでリリースされたSSLモデルを微調整することが一般的な方法である。
事前トレーニングと微調整の間、一貫したフロントエンド入力を使用することが不可欠である。
この一貫性は、最適なフロントエンドが事前トレーニングで使用されるものと同じでない場合に潜在的な問題を引き起こす可能性がある。
本稿では,このフロントエンドの相違に対処する,シンプルで効果的なフロントエンドアダプタを提案する。
異なるフロントエンドの出力間の距離を最小化することにより、フィルタバンク機能(Fbank)は、波形で事前訓練されたSSLモデルと互換性を持つことができる。
実験の結果,音声認識タスクのためのSSLモデルに対するフロントエンドアダプタの有効性が示された。
関連論文リスト
- CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Exploring Efficient-tuning Methods in Self-supervised Speech Models [53.633222197712875]
自己教師付き学習は、異なる音声タスクの強力な表現を学習することができる。
下流タスクでは、SSLモデルのパラメータは凍結され、アダプタのみがトレーニングされる。
90%以上のパラメータ削減を達成できることを示す。
論文 参考訳(メタデータ) (2022-10-10T11:08:12Z) - Match to Win: Analysing Sequences Lengths for Efficient Self-supervised
Learning in Speech and Audio [19.865050806327147]
自己教師型学習は、音声および音声関連アプリケーションにおいて不可欠であることが証明されている。
本稿では、特定配列長の異なるSSL事前トレーニングに関する最初の実証的研究について述べる。
ショートシーケンスでのトレーニングは、すべてのタスクで満足なパフォーマンスを維持しながら、リソースコストを劇的に削減できることがわかった。
論文 参考訳(メタデータ) (2022-09-30T16:35:42Z) - Non-Contrastive Self-supervised Learning for Utterance-Level Information
Extraction from Speech [32.058337220323146]
発話レベルの音声表現の自己教師付き学習(SSL)は、音声アプリケーションで使用することができる。
本稿では,非コントラスト型自己教師手法を適用し,発話レベルの埋め込みを学習する。
論文 参考訳(メタデータ) (2022-08-10T16:56:39Z) - Deploying self-supervised learning in the wild for hybrid automatic
speech recognition [20.03807843795386]
自己教師付き学習(SSL)法は自動音声認識(ASR)において非常に成功したことが証明されている。
我々は、データ前処理からストリーミングハイブリッドASRモデルのデプロイまで、SSLの未転写オーディオデータを利用する方法を示す。
論文 参考訳(メタデータ) (2022-05-17T19:37:40Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。
最近の研究では、音声からSSLも調べた。
音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。