論文の概要: Neural Representations for Modeling Variation in Speech
- arxiv url: http://arxiv.org/abs/2011.12649v3
- Date: Wed, 26 Jan 2022 13:41:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 03:12:05.425943
- Title: Neural Representations for Modeling Variation in Speech
- Title(参考訳): 音声のモデル化のためのニューラル表現
- Authors: Martijn Bartelds, Wietse de Vries, Faraz Sanal, Caitlin Richter, Mark
Liberman, Martijn Wieling
- Abstract要約: ニューラルモデルを用いて、英語の母語話者と母語話者の単語ベースの発音差を計算する。
特定のタイプのニューラルモデル(すなわちトランスフォーマー)から抽出された音声表現は,従来の2つのアプローチよりも,人間の知覚とよりよく一致していることを示す。
- 参考スコア(独自算出の注目度): 9.27189407857061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Variation in speech is often quantified by comparing phonetic transcriptions
of the same utterance. However, manually transcribing speech is time-consuming
and error prone. As an alternative, therefore, we investigate the extraction of
acoustic embeddings from several self-supervised neural models. We use these
representations to compute word-based pronunciation differences between
non-native and native speakers of English, and between Norwegian dialect
speakers. For comparison with several earlier studies, we evaluate how well
these differences match human perception by comparing them with available human
judgements of similarity. We show that speech representations extracted from a
specific type of neural model (i.e. Transformers) lead to a better match with
human perception than two earlier approaches on the basis of phonetic
transcriptions and MFCC-based acoustic features. We furthermore find that
features from the neural models can generally best be extracted from one of the
middle hidden layers than from the final layer. We also demonstrate that neural
speech representations not only capture segmental differences, but also
intonational and durational differences that cannot adequately be represented
by a set of discrete symbols used in phonetic transcriptions.
- Abstract(参考訳): 音声の変動はしばしば、同じ発話の音声の書き起こしを比較することによって定量化される。
しかし、手動による音声の書き起こしは時間がかかり、誤りが生じる。
そこで本研究では,複数の自己教師型ニューラルモデルから音響埋め込みの抽出について検討する。
これらの表現を用いて、英語の非母語話者と母語話者、およびノルウェー語の話者間の単語ベースの発音差を計算する。
これらの違いが人間の知覚にどのように合っているかを評価するために,いくつかの先行研究と比較した。
特定のタイプのニューラルモデル(すなわちトランスフォーマー)から抽出された音声表現は、音素転写とMFCCに基づく音響特徴に基づいて、従来の2つのアプローチよりも、人間の知覚とよく一致していることを示す。
さらに, ニューラルモデルの特徴は, 最終層よりも, 中間層のうちの1層から抽出されるのが一般的であることが判明した。
また,ニューラル音声表現はセグメント差だけでなく,音素転写に使用される離散記号の集合によって適切に表現できない,国際的・長期的な差異も捉えている。
関連論文リスト
- Human-like Linguistic Biases in Neural Speech Models: Phonetic Categorization and Phonotactic Constraints in Wav2Vec2.0 [0.11510009152620666]
We study how how Wav2Vec2solvs phonotactic constraints。
我々は/l/と/r/の音響連続体に音を合成し、制御された文脈に埋め込む。
人間と同様に、Wav2Vec2モデルは、このようなあいまいな音を処理する際に、音素的に許容できるカテゴリーに対してバイアスを示す。
論文 参考訳(メタデータ) (2024-07-03T11:04:31Z) - Perception of Phonological Assimilation by Neural Speech Recognition Models [3.4173734484549625]
本稿では、ニューラルネットワーク認識モデルであるWav2Vec2が、同化音をどのように知覚するかを考察する。
心理言語学的刺激を用いて、様々な言語文脈がモデル出力の補償パターンにどのように影響するかを分析する。
論文 参考訳(メタデータ) (2024-06-21T15:58:22Z) - Establishing degrees of closeness between audio recordings along
different dimensions using large-scale cross-lingual models [4.349838917565205]
そこで本稿では,メタデータを慎重にキュレートした音声録音におけるABXテストを用いた教師なしの新しい手法を提案する。
3つの実験が考案され、1つは室内音響、もう1つは言語学的ジャンル、もう1つは音声学的側面である。
その結果,異なる言語・言語的特徴を持つ記録から抽出した表現は,同じ線に沿って異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-08T11:31:23Z) - Agentivit\`a e telicit\`a in GilBERTo: implicazioni cognitive [77.71680953280436]
本研究の目的は,トランスフォーマーに基づくニューラルネットワークモデルが語彙意味論を推論するかどうかを検討することである。
考慮される意味的性質は、テリシティ(定性とも組み合わされる)と作用性である。
論文 参考訳(メタデータ) (2023-07-06T10:52:22Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Quantifying Language Variation Acoustically with Few Resources [4.162663632560141]
ディープ・アコースティック・モデルは低リソース言語に転送する言語情報を学んだかもしれない。
4つの言語(地域)から100以上の方言に対して平均10語以上の発音差を計算する。
その結果,音響モデルは音素の書き起こしを必要とせずに(従来の)書き起こし方式よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-05T15:00:56Z) - How Familiar Does That Sound? Cross-Lingual Representational Similarity
Analysis of Acoustic Word Embeddings [12.788276426899312]
本稿では、音響単語の埋め込み(AWE)を分析するために、表現類似性分析(RSA)に基づく新しい設計を提案する。
まず,類型的類似度の異なる7つのインド・ヨーロッパ語で単言語AWEモデルを訓練する。
次に、AWEを用いてネイティブおよび非ネイティブ音声単語処理をシミュレートし、言語間類似性を定量化するためにRSAを用いる。
論文 参考訳(メタデータ) (2021-09-21T13:51:39Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。