論文の概要: Self-supervised Rewiring of Pre-trained Speech Encoders: Towards Faster
Fine-tuning with Less Labels in Speech Processing
- arxiv url: http://arxiv.org/abs/2210.13030v1
- Date: Mon, 24 Oct 2022 08:27:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 18:49:06.921042
- Title: Self-supervised Rewiring of Pre-trained Speech Encoders: Towards Faster
Fine-tuning with Less Labels in Speech Processing
- Title(参考訳): 事前学習した音声エンコーダの自己教師ありリワイリング : 音声処理におけるラベルの少ない高速微調整に向けて
- Authors: Hao Yang, Jinming Zhao, Gholamreza Haffari and Ehsan Shareghi
- Abstract要約: 我々は、事前訓練された音声エンコーダを精査し、タスク固有のラベルを必要とせず、その表現空間を再構成する。
6つの音声処理タスクに関する実験では,タスクの微調整と一貫したタスク改善の間に顕著な収束速度が得られた。
- 参考スコア(独自算出の注目度): 66.92823764664206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained speech Transformers have facilitated great success across various
speech processing tasks. However, fine-tuning these encoders for downstream
tasks require sufficiently large training data to converge or to achieve
state-of-the-art. In text domain this has been partly attributed to
sub-optimality of the representation space in pre-trained Transformers. In this
work, we take a sober look into pre-trained speech encoders and rewire their
representation space without requiring any task-specific labels. Our method
utilises neutrally synthesised version of audio inputs along with frame masking
to construct positive pairs for contrastive self-supervised learning. When used
for augmenting the wav2vec 2 encoder, we observe consistent improvement of
isotropy in the representation space. Our experiments on 6 speech processing
tasks, exhibit a significant convergence speedup during task fine-tuning as
well as consistent task improvement, specially in low-resource settings.
- Abstract(参考訳): 事前学習された音声トランスフォーマは、様々な音声処理タスクで大きな成功を収めた。
しかし、下流タスクのためにこれらのエンコーダを微調整するには、十分に大きなトレーニングデータが必要となる。
テキストドメインでは、これは部分的には事前訓練されたトランスフォーマーの表現空間の準最適性に起因する。
本研究では,事前学習した音声エンコーダを精査し,タスク固有のラベルを必要とせずに表現空間を再構成する。
本手法では,音声入力を中性的に合成し,フレームマスキングを行い,自己教師付き学習のための正のペアを構築する。
wav2vec2エンコーダの強化に用いられる場合、表現空間における等方性の一貫した改善が観察される。
6つの音声処理タスクの実験では,タスク微調整時の収束速度が著しく向上し,特に低リソース環境でのタスク改善が一貫した。
関連論文リスト
- Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - ConvFiT: Conversational Fine-Tuning of Pretrained Language Models [42.7160113690317]
大規模なテキストコレクションに事前訓練されたトランスフォーマーベース言語モデル(LM)は、豊富なセマンティック知識を保存できることが証明されている。
本稿では,任意の事前学習したLMをユニバーサルな会話エンコーダに変換する,シンプルで効率的な2段階の手順であるConvFiTを提案する。
論文 参考訳(メタデータ) (2021-09-21T12:16:56Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - On the Usefulness of Self-Attention for Automatic Speech Recognition
with Transformers [40.991809705930955]
我々はウォールストリートジャーナルとスイッチボードで、より低い自己注意/フィードフォワード層エンコーダを持つモデルを訓練する。
ベースライン変圧器と比較して、性能低下はなく、小さな利得が観察される。
上位エンコーダ層をトレーニングする上で,グローバルな視点は不要である,と結論付けている。
論文 参考訳(メタデータ) (2020-11-08T16:01:38Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。