論文の概要: A layer-wise analysis of Mandarin and English suprasegmentals in SSL speech models
- arxiv url: http://arxiv.org/abs/2408.13678v1
- Date: Sat, 24 Aug 2024 22:03:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 18:29:37.117868
- Title: A layer-wise analysis of Mandarin and English suprasegmentals in SSL speech models
- Title(参考訳): SSL音声モデルにおけるマンダリンと英語の層構造解析
- Authors: Antón de la Fuente, Dan Jurafsky,
- Abstract要約: 英語とmandarin wav2vec 2.0モデルは抽象的な上述のカテゴリの文脈表現を学ぶ。
モデルは、トレーニングデータの言語に存在する機能を表現するのが得意です。
HuBERT と WavLM は wav2vec 2.0 と同様の表現を学習し、主に後の層の性能が異なる。
- 参考スコア(独自算出の注目度): 31.318688705100517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study asks how self-supervised speech models represent suprasegmental categories like Mandarin lexical tone, English lexical stress, and English phrasal accents. Through a series of probing tasks, we make layer-wise comparisons of English and Mandarin 12 layer monolingual models. Our findings suggest that 1) English and Mandarin wav2vec 2.0 models learn contextual representations of abstract suprasegmental categories which are strongest in the middle third of the network. 2) Models are better at representing features that exist in the language of their training data, and this difference is driven by enriched context in transformer blocks, not local acoustic representation. 3) Fine-tuned wav2vec 2.0 improves performance in later layers compared to pre-trained models mainly for lexically contrastive features like tone and stress, 4) HuBERT and WavLM learn similar representations to wav2vec 2.0, differing mainly in later layer performance. Our results extend previous understanding of how models represent suprasegmentals and offer new insights into the language-specificity and contextual nature of these representations.
- Abstract(参考訳): 本研究は, マンダリン語彙音, 英語語彙ストレス, 英語句のアクセントなど, 自己指導型音声モデルが, 上層カテゴリーをどう表現するかを問うものである。
一連の探索タスクを通じて、英語とマンダリン12層モノリンガルモデルの層間比較を行う。
私たちの発見は
1) 英語とmandarin wav2vec 2.0モデルは,ネットワークの中央3分の1で最強となる抽象上層圏の文脈表現を学習する。
2) モデルは訓練データの言語に存在する特徴を表現するのに優れており, この違いは局所的な音響表現ではなく, 変圧器ブロックの豊富なコンテキストによって引き起こされる。
3) 微調整wav2vec 2.0は, トーンやストレスといった語彙的に対照的な特徴を主とする事前訓練モデルと比較して, 後層の性能を向上する。
4) HuBERT と WavLM はwav2vec 2.0 と同様の表現を学習し、主に後層の性能が異なる。
以上の結果から,モデルが超越表現をどのように表現するかの理解を深め,これらの表現の言語特異性と文脈的性質に対する新たな洞察を提供する。
関連論文リスト
- What Do Speech Foundation Models Not Learn About Speech? [30.524282767961463]
我々はWhisper, Seamless, Wav2Vec, HuBERT, Qwen2-Audioなどの音声基礎モデルを分析する。
まず、ゼロショット設定でモデルを評価し、次にこれらのモデルから抽出した層ワイドな特徴を微調整する。
この結果から,モデルの一般化能力,レイヤワイド表現の特徴,下流タスク適応に必要な変換度などの知見が得られた。
論文 参考訳(メタデータ) (2024-10-16T18:34:07Z) - What Do Self-Supervised Speech and Speaker Models Learn? New Findings
From a Cross Model Layer-Wise Analysis [44.93152068353389]
自己教師付き学習(SSL)は、意味のある音声表現を学習するために注目を集めている。
話者SSLモデルは、主に話者表現のための発話レベルの訓練目標を採用する。
論文 参考訳(メタデータ) (2024-01-31T07:23:22Z) - Hindi as a Second Language: Improving Visually Grounded Speech with
Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。
この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文 参考訳(メタデータ) (2023-03-30T16:34:10Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - The Ability of Self-Supervised Speech Models for Audio Representations [53.19715501273934]
自己教師付き学習(SSL)音声モデルは、音声表現学習において前例のない成功を収めた。
我々は、最先端のSSL音声モデルの表現能力を評価するために、豊富な音声および非音声音声データセットに関する広範な実験を行う。
結果から、SSL音声モデルは幅広い非音声音声の有意義な特徴を抽出できるが、特定の種類のデータセットではフェールする可能性があることが示された。
論文 参考訳(メタデータ) (2022-09-26T15:21:06Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - TunBERT: Pretrained Contextualized Text Representation for Tunisian
Dialect [0.0]
表現不足言語に対するモノリンガルトランスフォーマーに基づく言語モデルのトレーニングの実現可能性について検討する。
構造化データの代わりにノイズの多いWebクローリングデータを使用することは、そのような非標準言語にとってより便利であることを示す。
我々の最高のパフォーマンスTunBERTモデルは、下流の3つのタスクすべてにおいて最先端のタスクに到達または改善します。
論文 参考訳(メタデータ) (2021-11-25T15:49:50Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。