論文の概要: Universal Paralinguistic Speech Representations Using Self-Supervised
Conformers
- arxiv url: http://arxiv.org/abs/2110.04621v1
- Date: Sat, 9 Oct 2021 18:07:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-16 21:55:55.458878
- Title: Universal Paralinguistic Speech Representations Using Self-Supervised
Conformers
- Title(参考訳): 自己教師付きコンフォーメータを用いた普遍的パラ言語表現
- Authors: Joel Shor, Aren Jansen, Wei Han, Daniel Park, Yu Zhang
- Abstract要約: 我々は600M+パラメータのコンフォーマーに基づくアーキテクチャから派生した,最先端のパラ言語表現を提案する。
多様な音声タスクのベンチマークを行い、表現の上に訓練された単純な線形分類器が、ほとんどすべての過去の結果より優れていることを示す。
- 参考スコア(独自算出の注目度): 11.69906905163198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many speech applications require understanding aspects beyond the words being
spoken, such as recognizing emotion, detecting whether the speaker is wearing a
mask, or distinguishing real from synthetic speech. In this work, we introduce
a new state-of-the-art paralinguistic representation derived from large-scale,
fully self-supervised training of a 600M+ parameter Conformer-based
architecture. We benchmark on a diverse set of speech tasks and demonstrate
that simple linear classifiers trained on top of our time-averaged
representation outperform nearly all previous results, in some cases by large
margins. Our analyses of context-window size demonstrate that, surprisingly, 2
second context-windows achieve 98% the performance of the Conformers that use
the full long-term context. Furthermore, while the best per-task
representations are extracted internally in the network, stable performance
across several layers allows a single universal representation to reach near
optimal performance on all tasks.
- Abstract(参考訳): 多くの音声アプリケーションは、感情を認識すること、話者がマスクを着用しているかどうかを検出すること、あるいは合成音声と現実を区別することなど、話し言葉以外の側面を理解する必要がある。
本研究では,600M+パラメータ・コンフォーマー・ベースアーキテクチャの大規模かつ完全自己教師型トレーニングから得られた,最先端のパラ言語表現を提案する。
音声タスクの多種多様なセットをベンチマークし、時間平均表現の上に訓練された単純な線形分類器が、ほとんどの過去の結果より優れており、場合によっては大きなマージンで優れていることを示す。
コンテキストウィンドウサイズを分析した結果,2秒のコンテキストウィンドウが,完全な長期コンテキストを使用するコンフォーメータのパフォーマンスを98%達成していることが分かりました。
さらに、最高のタスク毎の表現はネットワーク内部で抽出されるが、複数の層にまたがる安定したパフォーマンスにより、単一の普遍的な表現が全てのタスクにおいてほぼ最適なパフォーマンスに達することができる。
関連論文リスト
- PolySpeech: Exploring Unified Multitask Speech Models for Competitiveness with Single-task Models [19.719401865551745]
音声認識,音声合成,および2つの音声分類タスクをサポートするマルチタスク音声モデルであるPolySpeechを提案する。
PolySpeechは、シングルタスクモデルと比較して、さまざまなタスク間の競争力を示している。
論文 参考訳(メタデータ) (2024-06-12T01:35:46Z) - SpeechVerse: A Large-scale Generalizable Audio Language Model [38.67969337605572]
SpeechVerseは堅牢なマルチタスクトレーニングおよびカリキュラム学習フレームワークである。
学習可能なパラメータの小さなセットを通じて、事前訓練された音声とテキスト基礎モデルを組み合わせる。
実験により、我々のマルチタスクSpeechVerseモデルは、従来のタスク固有のベースラインよりも11タスク中9タスクの方が優れていることが判明した。
論文 参考訳(メタデータ) (2024-05-14T03:33:31Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Representation Learning With Hidden Unit Clustering For Low Resource
Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。
モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。
HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-07-14T13:02:10Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。