論文の概要: Speech Representation Learning Through Self-supervised Pretraining And
Multi-task Finetuning
- arxiv url: http://arxiv.org/abs/2110.09930v1
- Date: Mon, 18 Oct 2021 07:16:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-21 05:31:04.472744
- Title: Speech Representation Learning Through Self-supervised Pretraining And
Multi-task Finetuning
- Title(参考訳): 自己教師型事前学習とマルチタスクファインタニングによる音声表現学習
- Authors: Yi-Chen Chen, Shu-wen Yang, Cheng-Kuang Lee, Simon See, Hung-yi Lee
- Abstract要約: MTLファインタニングはSSLプリトレーニングをさらに改善できることを示す。
教師付きMLLファインタニングの一般化性を分析し,MTLファインタニングで学習した音声表現が新たなタスクに一般化できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 63.38155671200249
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech representation learning plays a vital role in speech processing. Among
them, self-supervised learning (SSL) has become an important research
direction. It has been shown that an SSL pretraining model can achieve
excellent performance in various downstream tasks of speech processing. On the
other hand, supervised multi-task learning (MTL) is another representation
learning paradigm, which has been proven effective in computer vision (CV) and
natural language processing (NLP). However, there is no systematic research on
the general representation learning model trained by supervised MTL in speech
processing. In this paper, we show that MTL finetuning can further improve SSL
pretraining. We analyze the generalizability of supervised MTL finetuning to
examine if the speech representation learned by MTL finetuning can generalize
to unseen new tasks.
- Abstract(参考訳): 音声表現学習は音声処理において重要な役割を果たす。
その中で,自己指導型学習(SSL)が重要な研究方向となっている。
音声処理の下流タスクにおいて,SSL事前学習モデルが優れた性能を発揮することが示されている。
一方、教師付きマルチタスク学習(MTL)は、コンピュータビジョン(CV)と自然言語処理(NLP)において有効であることが証明された別の表現学習パラダイムである。
しかし、音声処理において、教師付きMTLによって訓練された汎用表現学習モデルに関する体系的な研究はない。
本稿では,MTLの微調整によりSSLプリトレーニングをさらに改善できることを示す。
教師付きMLLファインタニングの一般化性を分析し,MTLファインタニングで学習した音声表現が新たなタスクに一般化できるかどうかを検討する。
関連論文リスト
- Layer by Layer: Uncovering Where Multi-Task Learning Happens in Instruction-Tuned Large Language Models [22.676688441884465]
タスクの多種多様な配列で訓練済みの大規模言語モデル(LLM)を微調整することが、モデル構築の一般的なアプローチとなっている。
本研究では,事前学習したLLMに符号化されたタスク固有情報と,その表現に対する指導指導の効果について検討する。
論文 参考訳(メタデータ) (2024-10-25T23:38:28Z) - Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - What In-Context Learning "Learns" In-Context: Disentangling Task
Recognition and Task Learning [24.395288160951118]
大規模言語モデル(LLM)は、いくつかのデモでタスクを解くためにコンテキスト内学習(ICL)を利用する。
ICLがデモを利用する2つの方法の特徴付けを行う。
TRのみを用いて非自明な性能を達成でき、TRはより大きなモデルやより多くのデモでさらに改善されないことを示す。
論文 参考訳(メタデータ) (2023-05-16T18:05:19Z) - Seeing What You Miss: Vision-Language Pre-training with Semantic
Completion Learning [22.464424641734652]
クロスモーダルアライメントは視覚言語事前学習モデルに不可欠である。
本研究では,グローバル・ローカル・アライメントを支援するセマンティック・コンプリート学習タスクを提案する。
また、フレキシブル・ビジョン・エンコーダを導入し、画像テキストとビデオテキストのマルチモーダルタスクを同時に実行できるようにした。
論文 参考訳(メタデータ) (2022-11-24T06:39:16Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - SUPERB: Speech processing Universal PERformance Benchmark [78.41287216481203]
自然言語処理(NLP)とコンピュータビジョン(CV)の研究を進める上で、SSL(Self-supervised Learning)は不可欠です。
SuperBは、幅広い音声処理タスクで共有モデルのパフォーマンスをベンチマークするためのリーダーボードです。
凍結共有モデル上にタスク特化軽量予測ヘッドを学習することで、SUPERBタスクを解決するためのシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。