論文の概要: Self-Supervised Models of Speech Infer Universal Articulatory Kinematics
- arxiv url: http://arxiv.org/abs/2310.10788v2
- Date: Tue, 16 Jan 2024 08:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 01:10:04.483233
- Title: Self-Supervised Models of Speech Infer Universal Articulatory Kinematics
- Title(参考訳): 普遍的調音運動を推定する音声の自己監督モデル
- Authors: Cheol Jun Cho, Abdelrahman Mohamed, Alan W Black and Gopala K.
Anumanchipalli
- Abstract要約: SSLモデルの基本特性として「調音キネマティクスの推論」を示す。
また、この抽象化は、モデルをトレーニングするために使用されるデータの言語に大きく重なり合っていることも示しています。
簡単なアフィン変換では、アコースティック・トゥ・アコースティック・トゥ・アーティキュレーション・インバージョン(AAI)は、性別、言語、方言でさえ話者間で変換可能であることを示す。
- 参考スコア(独自算出の注目度): 44.27187669492598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-Supervised Learning (SSL) based models of speech have shown remarkable
performance on a range of downstream tasks. These state-of-the-art models have
remained blackboxes, but many recent studies have begun "probing" models like
HuBERT, to correlate their internal representations to different aspects of
speech. In this paper, we show "inference of articulatory kinematics" as
fundamental property of SSL models, i.e., the ability of these models to
transform acoustics into the causal articulatory dynamics underlying the speech
signal. We also show that this abstraction is largely overlapping across the
language of the data used to train the model, with preference to the language
with similar phonological system. Furthermore, we show that with simple affine
transformations, Acoustic-to-Articulatory inversion (AAI) is transferrable
across speakers, even across genders, languages, and dialects, showing the
generalizability of this property. Together, these results shed new light on
the internals of SSL models that are critical to their superior performance,
and open up new avenues into language-agnostic universal models for speech
engineering, that are interpretable and grounded in speech science.
- Abstract(参考訳): 音声の自己教師付き学習(SSL)に基づくモデルは、下流タスクで顕著なパフォーマンスを示している。
これらの最先端のモデルはブラックボックスのままだが、最近の多くの研究は、内部表現を音声の異なる側面に関連付けるために、HuBERTのような「探索」モデルを開始した。
本稿では、これらのモデルが音響を音声信号の根底にある因果的調音力学に変換する能力であるSSLモデルの基本的な特性として「調音キネマティクスの推論」を示す。
また,この抽象化がモデルの学習に使用されるデータの言語に重なり合っており,類似した音韻体系を持つ言語に好意的であることも示している。
さらに,単純なアフィン変換では,aai(a acoustic-to-articulatory inversion)が話者間,性別,言語,方言間でも転送可能であり,この性質の一般化性を示す。
これらの結果は、それらの優れた性能にとって重要なsslモデルの内部に新しい光を当て、言語に依存しない音声工学の普遍的モデルへの新しい道を開き、それらは音声科学において解釈可能で基礎となっている。
関連論文リスト
- Developing Acoustic Models for Automatic Speech Recognition in Swedish [6.5458610824731664]
本稿では,トレーニング可能なシステムを用いた自動連続音声認識について述べる。
この研究の目的はスウェーデン語話者のための音響モデルを構築することである。
論文 参考訳(メタデータ) (2024-04-25T12:03:14Z) - Leveraging the Interplay Between Syntactic and Acoustic Cues for Optimizing Korean TTS Pause Formation [6.225927189801006]
本稿では,パジングパターンに関連する構文的手法と音響的手法の両方を包括的にモデル化する新しい枠組みを提案する。
注目に値することに、我々のフレームワークは、より拡張され複雑なドメイン外文(OOD)であっても、自然言語を一貫して生成する能力を持っている。
論文 参考訳(メタデータ) (2024-04-03T09:17:38Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Probing self-supervised speech models for phonetic and phonemic
information: a case study in aspiration [17.94683764469626]
我々は,これらのモデルの学習表現が,人間による基本的な表現区別とどのように一致しているかを評価する。
これらのモデルのアーキテクチャの初期層には、音韻と音韻の区別の堅牢な表現が出現している。
以上の結果から,HuBERTは抽象音韻的区別に対応する低雑音・低次元部分空間を導出することがわかった。
論文 参考訳(メタデータ) (2023-06-09T20:07:22Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Self-supervised Neural Factor Analysis for Disentangling Utterance-level
Speech Representations [30.293081541301746]
wav2vecやHuBERTのような自己教師付き学習(SSL)音声モデルは、音声認識における最先端の性能を実証している。
この問題は,不整合表現の欠如と発話レベルの学習目標が原因である。
我々のモデルは、SUPERBベンチマークの全ての発話レベル非意味タスクにおいて、ラベル付きデータのわずか20%で、現在の最高のモデルであるWavLMより優れています。
論文 参考訳(メタデータ) (2023-05-14T08:26:24Z) - The Ability of Self-Supervised Speech Models for Audio Representations [53.19715501273934]
自己教師付き学習(SSL)音声モデルは、音声表現学習において前例のない成功を収めた。
我々は、最先端のSSL音声モデルの表現能力を評価するために、豊富な音声および非音声音声データセットに関する広範な実験を行う。
結果から、SSL音声モデルは幅広い非音声音声の有意義な特徴を抽出できるが、特定の種類のデータセットではフェールする可能性があることが示された。
論文 参考訳(メタデータ) (2022-09-26T15:21:06Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - The Grammar-Learning Trajectories of Neural Language Models [42.32479280480742]
ニューラルネットワークモデルは,データ上での終末性能が異なるにもかかわらず,同じ順序で言語現象を取得することを示す。
以上の結果から,NLMは一貫した発達段階を示すことが示唆された。
論文 参考訳(メタデータ) (2021-09-13T16:17:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。