論文の概要: Predicting non-native speech perception using the Perceptual
Assimilation Model and state-of-the-art acoustic models
- arxiv url: http://arxiv.org/abs/2205.15823v1
- Date: Tue, 31 May 2022 14:25:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 19:25:10.071938
- Title: Predicting non-native speech perception using the Perceptual
Assimilation Model and state-of-the-art acoustic models
- Title(参考訳): 知覚同化モデルと最先端音響モデルを用いた非ネイティブ音声知覚予測
- Authors: Juliette Millet, Ioana Chitoran, Ewan Dunbar
- Abstract要約: 61母音に対するフランス語および英語話者の音声知覚行動の新しいオープンデータセットを提案する。
音素同化は, 識別行動全体において, きめ細かい音素モデルよりも優れた予測因子であることを示す。
また、wav2vec 2.0は、ネイティブ言語が音声知覚に与える影響を捉えるのが得意ではないが、ネイティブ音素同化に関する情報と相補的であることも示している。
- 参考スコア(独自算出の注目度): 9.858745856649998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our native language influences the way we perceive speech sounds, affecting
our ability to discriminate non-native sounds. We compare two ideas about the
influence of the native language on speech perception: the Perceptual
Assimilation Model, which appeals to a mental classification of sounds into
native phoneme categories, versus the idea that rich, fine-grained phonetic
representations tuned to the statistics of the native language, are sufficient.
We operationalize this idea using representations from two state-of-the-art
speech models, a Dirichlet process Gaussian mixture model and the more recent
wav2vec 2.0 model. We present a new, open dataset of French- and
English-speaking participants' speech perception behaviour for 61 vowel sounds
from six languages. We show that phoneme assimilation is a better predictor
than fine-grained phonetic modelling, both for the discrimination behaviour as
a whole, and for predicting differences in discriminability associated with
differences in native language background. We also show that wav2vec 2.0, while
not good at capturing the effects of native language on speech perception, is
complementary to information about native phoneme assimilation, and provides a
good model of low-level phonetic representations, supporting the idea that both
categorical and fine-grained perception are used during speech perception.
- Abstract(参考訳): 我々の母国語は、音声を知覚する方法に影響を与え、非母国語を識別する能力に影響を与える。
自然言語が音声知覚に与える影響について, 知覚的同化モデル(知覚同化モデル)を母語音素カテゴリーに分類し, 豊かできめ細かい音声表現を母語の統計に合わせた場合, 十分である, という2つの概念を比較した。
我々はこのアイデアを、2つの最先端音声モデル、ディリクレプロセスガウス混合モデル、より最近のwav2vec 2.0モデルの表現を用いて運用する。
本研究では、6言語61母音に対するフランス語および英語話者の音声知覚行動の新しいオープンデータセットを提案する。
音素同化は, 識別行動全体および母国語背景の差異に伴う識別可能性の差を予測するため, 細粒度音声モデルよりも優れた予測因子であることを示す。
また、wav2vec 2.0は、ネイティブ言語が音声知覚に与える影響を捉えるのが苦手であるが、ネイティブ音素同化の情報と相補的であり、低レベルの音声表現の優れたモデルを提供し、音声知覚において分類的および微粒な知覚の両方が使用されるという考えを支持する。
関連論文リスト
- Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Do self-supervised speech and language models extract similar
representations as human brain? [2.390915090736061]
自己教師付き学習(SSL)によって訓練された音声と言語モデルは、音声と言語知覚の間の脳活動と強い整合性を示す。
我々は2つの代表的なSSLモデルであるWav2Vec2.0とGPT-2の脳波予測性能を評価した。
論文 参考訳(メタデータ) (2023-10-07T01:39:56Z) - Do self-supervised speech models develop human-like perception biases? [11.646802225841153]
本稿では,3種類の最先端自己教師型モデル(wav2vec 2.0, HuBERT, CPC)の表現空間について検討する。
CPCモデルは母国語の影響が小さいことを示すが、wav2vec 2.0とHuBERTは言語固有のものではない普遍的な音声認識空間を発達させている。
教師付き電話認識装置の予測との比較では、教師付き3つのモデルが比較的きめ細かい知覚現象を捉えているのに対し、教師付きモデルは聞き手の母国語が知覚に与える影響を捉えるのに優れていることが示唆されている。
論文 参考訳(メタデータ) (2022-05-31T14:21:40Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - A phonetic model of non-native spoken word processing [40.018538874161756]
音韻学にアクセスできない音韻学習の計算モデルを1つまたは2つの言語で学習する。
まず、このモデルが、音声レベルおよび単語レベルの識別タスクにおいて予測可能な振る舞いを示すことを示す。
次に、音声による単語処理タスクでモデルをテストし、非母語話者で観察される単語処理の効果を説明するために音韻学は必要ないことを示した。
論文 参考訳(メタデータ) (2021-01-27T11:46:21Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - Perceptimatic: A human speech perception benchmark for unsupervised
subword modelling [11.646802225841153]
音声識別タスクにおいて,音声処理モデルと人間の行動を比較するためのデータセットと手法を提案する。
我々は、フランス語と英語の音声刺激からなるオープンデータセットであるPerceptimaticと、91名の英語と93名のフランス語の聴取者の結果を提供する。
刺激は幅広いフランス語と英語のコントラストを検査し、自然な読み上げ音声のコーパスから直接抽出する。
教師なしモデルや教師付き多言語モデルとは異なり、標準教師付き単言語HMM-GMM音声認識システムでは、携帯電話の識別に長けながら、表現空間が非常に優れていることを示す。
論文 参考訳(メタデータ) (2020-10-12T18:40:08Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。