論文の概要: Losses Can Be Blessings: Routing Self-Supervised Speech Representations
Towards Efficient Multilingual and Multitask Speech Processing
- arxiv url: http://arxiv.org/abs/2211.01522v1
- Date: Wed, 2 Nov 2022 23:47:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 14:38:58.993786
- Title: Losses Can Be Blessings: Routing Self-Supervised Speech Representations
Towards Efficient Multilingual and Multitask Speech Processing
- Title(参考訳): ロースは祝福できる: 効率的な多言語・マルチタスク音声処理に向けた自己監督型音声表現のルーティング
- Authors: Yonggan Fu, Yang Zhang, Kaizhi Qian, Zhifan Ye, Zhongzhi Yu, Cheng-I
Lai, Yingyan Lin
- Abstract要約: リッチな音声表現のための自己教師型学習は、低リソース自動音声認識(ASR)やその他の音声処理タスクにおいて経験的な成功を収めた。
しかし、高度な音声SSLモデルはますます大きくなり、デバイス上のリソースは限られている。
本研究の目的は,提案したS$3$-フレームワークによる効率向上と過度なオーバーフィッティングの両面において,音声SSLモデルの実用的利用を向上させることである。
- 参考スコア(独自算出の注目度): 28.567949807340828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) for rich speech representations has achieved
empirical success in low-resource Automatic Speech Recognition (ASR) and other
speech processing tasks, which can mitigate the necessity of a large amount of
transcribed speech and thus has driven a growing demand for on-device ASR and
other speech processing. However, advanced speech SSL models have become
increasingly large, which contradicts the limited on-device resources. This gap
could be more severe in multilingual/multitask scenarios requiring
simultaneously recognizing multiple languages or executing multiple speech
processing tasks. Additionally, strongly overparameterized speech SSL models
tend to suffer from overfitting when being finetuned on low-resource speech
corpus. This work aims to enhance the practical usage of speech SSL models
towards a win-win in both enhanced efficiency and alleviated overfitting via
our proposed S$^3$-Router framework, which for the first time discovers that
simply discarding no more than 10\% of model weights via only finetuning model
connections of speech SSL models can achieve better accuracy over standard
weight finetuning on downstream speech processing tasks. More importantly,
S$^3$-Router can serve as an all-in-one technique to enable (1) a new
finetuning scheme, (2) an efficient multilingual/multitask solution, (3) a
state-of-the-art ASR pruning technique, and (4) a new tool to quantitatively
analyze the learned speech representation. We believe S$^3$-Router has provided
a new perspective for practical deployment of speech SSL models. Our codes are
available at: https://github.com/GATECH-EIC/S3-Router.
- Abstract(参考訳): リッチな音声表現のための自己教師付き学習(SSL)は、低リソース自動音声認識(ASR)や他の音声処理タスクにおいて経験的な成功を収め、大量の転写音声の必要性を軽減し、デバイス上でのASRやその他の音声処理への需要を増大させている。
しかし、高度な音声SSLモデルはますます大きくなり、デバイス上のリソースは限られている。
複数の言語を同時に認識したり、複数の音声処理タスクを実行する必要がある。
さらに、強い過パラメータの音声sslモデルは、低リソースの音声コーパスで微調整される場合、過剰に適合しがちである。
本研究は,提案するs$^3$-routerフレームワークを通じ,効率向上とオーバーフィットの両立により,音声sslモデルの実用性を高めることを目的としており,音声sslモデルの微調整モデルのみによるモデル重みの10\%以上を単に捨てるだけで,下流音声処理タスクにおける標準重みの微調整よりも精度が向上することを示す。
さらにS$^3$-Routerは、(1)新しい微調整方式、(2)効率的な多言語/マルチタスクソリューション、(3)最先端のASRプルーニング手法、(4)学習した音声表現を定量的に分析する新しいツールを実現するオールインワン手法として機能することができる。
我々は、S$^3$-Routerが、音声SSLモデルの実践的な展開に新しい視点を与えたと考えている。
私たちのコードは、https://github.com/GATECH-EIC/S3-Router.comで利用可能です。
関連論文リスト
- SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - SSL-TTS: Leveraging Self-Supervised Embeddings and kNN Retrieval for Zero-Shot Multi-speaker TTS [18.701864254184308]
TTSの効果的な中間表現として,自己教師付き学習(SSL)音声の特徴が出現している。
本研究では、単一話者からの音声の書き起こしに基づいて訓練された軽量で効率的なゼロショットTTSフレームワークであるSSL-TTSを紹介する。
論文 参考訳(メタデータ) (2024-08-20T12:09:58Z) - SLM: Bridge the thin gap between speech and text foundation models [45.319071954143325]
音声・言語モデル (SLM) は、事前訓練された基礎言語モデルと言語モデルを利用するマルチタスク、多言語、二重モーダルモデルである。
我々は、SLMは訓練に効率的であるが、異なるモダリティの基盤モデルで既に獲得されている強力な能力を継承することを示した。
論文 参考訳(メタデータ) (2023-09-30T02:27:45Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - The Ability of Self-Supervised Speech Models for Audio Representations [53.19715501273934]
自己教師付き学習(SSL)音声モデルは、音声表現学習において前例のない成功を収めた。
我々は、最先端のSSL音声モデルの表現能力を評価するために、豊富な音声および非音声音声データセットに関する広範な実験を行う。
結果から、SSL音声モデルは幅広い非音声音声の有意義な特徴を抽出できるが、特定の種類のデータセットではフェールする可能性があることが示された。
論文 参考訳(メタデータ) (2022-09-26T15:21:06Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Continual-wav2vec2: an Application of Continual Learning for
Self-Supervised Automatic Speech Recognition [0.23872611575805824]
自己教師付き学習(SSL)を用いた複数言語における音声表現の連続学習法を提案する。
Wav2vecモデルは、事前トレーニングフェーズで生オーディオ上でSSLを実行し、アノテートされた少数のデータに対して微調整を行う。
新しい言語タスクの事前学習を高速化するために、継続学習からのアイデアを、以前のタスクから知識を伝達するために使用します。
論文 参考訳(メタデータ) (2021-07-26T10:39:03Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。