論文の概要: Evidence of Vocal Tract Articulation in Self-Supervised Learning of
Speech
- arxiv url: http://arxiv.org/abs/2210.11723v3
- Date: Fri, 21 Jul 2023 03:12:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-24 16:37:51.863374
- Title: Evidence of Vocal Tract Articulation in Self-Supervised Learning of
Speech
- Title(参考訳): 自己教師付き音声学習における声道構音の証拠
- Authors: Cheol Jun Cho, Peter Wu, Abdelrahman Mohamed, Gopala K. Anumanchipalli
- Abstract要約: 最近の自己教師付き学習(SSL)モデルは、音声の豊かな表現を学習することが証明されている。
EMA(Electronic Articulography)による音声表現と音声軌跡を関連付けるための包括的分析を行う。
以上の結果から, SSLモデルは連続的な調音と密接に一致し, 音声SSLに関する新たな知見を提供する。
- 参考スコア(独自算出の注目度): 15.975756437343742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent self-supervised learning (SSL) models have proven to learn rich
representations of speech, which can readily be utilized by diverse downstream
tasks. To understand such utilities, various analyses have been done for speech
SSL models to reveal which and how information is encoded in the learned
representations. Although the scope of previous analyses is extensive in
acoustic, phonetic, and semantic perspectives, the physical grounding by speech
production has not yet received full attention. To bridge this gap, we conduct
a comprehensive analysis to link speech representations to articulatory
trajectories measured by electromagnetic articulography (EMA). Our analysis is
based on a linear probing approach where we measure articulatory score as an
average correlation of linear mapping to EMA. We analyze a set of SSL models
selected from the leaderboard of the SUPERB benchmark and perform further
layer-wise analyses on two most successful models, Wav2Vec 2.0 and HuBERT.
Surprisingly, representations from the recent speech SSL models are highly
correlated with EMA traces (best: r = 0.81), and only 5 minutes are sufficient
to train a linear model with high performance (r = 0.77). Our findings suggest
that SSL models learn to align closely with continuous articulations, and
provide a novel insight into speech SSL.
- Abstract(参考訳): 近年の自己教師付き学習(SSL)モデルは、多様な下流タスクで容易に利用可能な、豊かな音声表現を学習できることが証明されている。
このようなユーティリティを理解するために,音声SSLモデルに対して,学習した表現にどの情報をエンコードしているかを明らかにする様々な分析を行った。
先行分析の範囲は音響的,音声的,意味的な視点において広いが,音声生成による物理的基盤化は,まだ十分に注目されていない。
このギャップを埋めるため,電磁動脈造影法(EMA)で測定した音声表現と音声軌跡をリンクする包括的解析を行った。
EMAに対する線形写像の平均的相関として調音スコアを測定する線形探索法に基づく。
superbベンチマークのリーダボードから選択したsslモデルのセットを分析し,最も成功した2つのモデルであるwav2vec 2.0とhubertの層別分析を行った。
驚くべきことに、最近の音声SSLモデルの表現はEMAトレースと高い相関関係があり(ベスト: r = 0.81)、高性能な線形モデルのトレーニングには5分しかかからない(r = 0.77)。
以上の結果から, SSLモデルは連続的な調音と密接に一致し, 音声SSLに関する新たな知見を提供する。
関連論文リスト
- What Do Self-Supervised Speech and Speaker Models Learn? New Findings
From a Cross Model Layer-Wise Analysis [44.93152068353389]
自己教師付き学習(SSL)は、意味のある音声表現を学習するために注目を集めている。
話者SSLモデルは、主に話者表現のための発話レベルの訓練目標を採用する。
論文 参考訳(メタデータ) (2024-01-31T07:23:22Z) - Mispronunciation detection using self-supervised speech representations [10.010024759851142]
本稿では,第2言語学習者の誤発音検出作業におけるSSLモデルの利用について検討する。
そこで本研究では,1)母国英語データを用いた音声認識モデルの訓練,2)非母国英語データを用いた目標タスクのためのモデルを直接訓練する,という2つのダウンストリームアプローチを比較した。
論文 参考訳(メタデータ) (2023-07-30T21:20:58Z) - Self-supervised Neural Factor Analysis for Disentangling Utterance-level
Speech Representations [30.293081541301746]
wav2vecやHuBERTのような自己教師付き学習(SSL)音声モデルは、音声認識における最先端の性能を実証している。
この問題は,不整合表現の欠如と発話レベルの学習目標が原因である。
我々のモデルは、SUPERBベンチマークの全ての発話レベル非意味タスクにおいて、ラベル付きデータのわずか20%で、現在の最高のモデルであるWavLMより優れています。
論文 参考訳(メタデータ) (2023-05-14T08:26:24Z) - Model Extraction Attack against Self-supervised Speech Models [52.81330435990717]
自己教師付き学習(SSL)音声モデルは、与えられたクリップの有意義な表現を生成する。
モデル抽出攻撃 (MEA) は、しばしば、クエリアクセスのみで被害者モデルの機能を盗む敵を指す。
本稿では,少数のクエリを用いたSSL音声モデルに対するMEA問題について検討する。
論文 参考訳(メタデータ) (2022-11-29T09:28:05Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Automatic Pronunciation Assessment using Self-Supervised Speech
Representation Learning [13.391307807956673]
自己教師付き学習(SSL)モデルに基づく新しい発音評価手法を提案する。
提案手法は,英単語学習者の英語発音に適応するために,事前学習したSSLモデルを接続型時間分類で微調整する。
提案手法は,韓国のESL学習者とSpeechocean762のデータセットに基づいて,ピアソン相関係数を用いてベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-08T06:13:55Z) - Sound and Visual Representation Learning with Multiple Pretraining Tasks [104.11800812671953]
自己管理タスク(SSL)は、データと異なる特徴を明らかにする。
この作業は、下流のすべてのタスクをうまく一般化する複数のSSLタスク(Multi-SSL)を組み合わせることを目的としている。
音響表現の実験では、SSLタスクのインクリメンタルラーニング(IL)によるマルチSSLが、単一のSSLタスクモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-01-04T09:09:38Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。