論文の概要: On the Transferability of Whisper-based Representations for
"In-the-Wild" Cross-Task Downstream Speech Applications
- arxiv url: http://arxiv.org/abs/2305.14546v1
- Date: Tue, 23 May 2023 22:02:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 21:36:41.655382
- Title: On the Transferability of Whisper-based Representations for
"In-the-Wild" Cross-Task Downstream Speech Applications
- Title(参考訳): In-the-Wild" クロスタスク下流音声用ウィスパーベース表現の伝達性について
- Authors: Vamsikrishna Chemudupati, Marzieh Tahaei, Heitor Guimaraes, Arthur
Pimentel, Anderson Avila, Mehdi Rezagholizadeh, Boxing Chen, Tiago Falk
- Abstract要約: Whisperは、ASRの弱い教師付きデータに基づいて、トランスフォーマーベースのモデルを提案し、訓練した。
SUPERBベンチマークにおいて、他の4つの音声タスクに対する表現の転送可能性を示す。
また,環境騒音や室内残響によって発話が損なわれる作業におけるWhisper表現の堅牢性についても検討する。
- 参考スコア(独自算出の注目度): 22.295637282825485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large self-supervised pre-trained speech models have achieved remarkable
success across various speech-processing tasks. The self-supervised training of
these models leads to universal speech representations that can be used for
different downstream tasks, ranging from automatic speech recognition (ASR) to
speaker identification. Recently, Whisper, a transformer-based model was
proposed and trained on large amount of weakly supervised data for ASR; it
outperformed several state-of-the-art self-supervised models. Given the
superiority of Whisper for ASR, in this paper we explore the transferability of
the representation for four other speech tasks in SUPERB benchmark. Moreover,
we explore the robustness of Whisper representation for ``in the wild'' tasks
where speech is corrupted by environment noise and room reverberation.
Experimental results show Whisper achieves promising results across tasks and
environmental conditions, thus showing potential for cross-task real-world
deployment.
- Abstract(参考訳): 大規模自己教師付き事前訓練音声モデルは、様々な音声処理タスクにおいて顕著な成功を収めた。
これらのモデルの自己教師付きトレーニングは、自動音声認識(ASR)から話者識別まで、さまざまな下流タスクに使用できる普遍的な音声表現をもたらす。
最近、トランスフォーマーベースのモデルであるWhisperが提案され、ASRの弱い教師付きデータに基づいて訓練され、最先端の自己教師型モデルよりも優れていた。
本稿では,ASRにおけるWhisperの優位性を考慮し,SUPERBベンチマークにおける他の4つの音声タスクの表現の伝達可能性について検討する。
さらに,環境騒音や室内残響によって音声が劣化する「野生」作業におけるWhisper表現の堅牢性について検討する。
実験の結果、whisperはタスクと環境条件にまたがる有望な結果を達成し、タスク間の実世界展開の可能性を示している。
関連論文リスト
- Incorporating Talker Identity Aids With Improving Speech Recognition in Adversarial Environments [0.2916558661202724]
音声認識と話者識別を共同で行うトランスフォーマーモデルを開発した。
クリーンな条件下では,ジョイントモデルがWhisperと相容れない性能を示す。
以上の結果から,音声認識と音声表現の統合により,対向条件下ではより堅牢なモデルが得られる可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-07T18:39:59Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - Extending Whisper with prompt tuning to target-speaker ASR [18.31992429200396]
ターゲット話者自動音声認識(Target-Speaker Automatic Speech Recognition, ASR)は、ターゲット話者の所望の音声を重なり合う発話から書き起こすことを目的としている。
既存のターゲットスピーカーASR(TS-ASR)の手法のほとんどは、スクラッチからトレーニングするか、事前訓練されたモデルを完全に微調整するものである。
この研究は、パラメータ効率のよい微調整手法であるプロンプトチューニングを利用して、大規模なシングルストーカーASRモデルであるWhisperをTS-ASRに拡張する。
論文 参考訳(メタデータ) (2023-12-13T11:49:16Z) - SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。
提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-02-03T01:36:38Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - Characterizing the adversarial vulnerability of speech self-supervised
learning [95.03389072594243]
我々は,ゼロ知識とリミテッド知識の両方の敵からの攻撃の下で,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。
実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2021-11-08T08:44:04Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。