論文の概要: Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks
- arxiv url: http://arxiv.org/abs/2110.06507v1
- Date: Wed, 13 Oct 2021 05:30:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 01:04:08.778434
- Title: Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks
- Title(参考訳): 知覚ポイント:バイリンガルネットワークにおける音声における臨界学習期間の同定
- Authors: Anuj Saraswat, Mehar Bhatia, Yaman Kumar Singla, Changyou Chen, Rajiv
Ratn Shah
- Abstract要約: ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
- 参考スコア(独自算出の注目度): 58.24134321728942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies in speech perception have been closely linked to fields of
cognitive psychology, phonology, and phonetics in linguistics. During
perceptual attunement, a critical and sensitive developmental trajectory has
been examined in bilingual and monolingual infants where they can best
discriminate common phonemes. In this paper, we compare and identify these
cognitive aspects on deep neural-based visual lip-reading models. We conduct
experiments on the two most extensive public visual speech recognition datasets
for English and Mandarin. Through our experimental results, we observe a strong
correlation between these theories in cognitive psychology and our unique
modeling. We inspect how these computational models develop similar phases in
speech perception and acquisitions.
- Abstract(参考訳): 音声知覚に関する最近の研究は、言語学における認知心理学、音韻学、音韻学の分野と密接に関連している。
両言語・モノリンガルの幼児において, 音素の識別が最良である場合に, 重度かつ敏感な発達軌跡について検討した。
本稿では,深部神経に基づく視覚的唇読解モデルにおける認知的側面を比較し,同定する。
英語とマンダリンの2つの公的な視覚音声認識データセットについて実験を行った。
実験の結果から,認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係が認められた。
これらの計算モデルが、音声知覚と獲得における類似のフェーズをどのように発展させるかを調べる。
関連論文リスト
- SIFToM: Robust Spoken Instruction Following through Theory of Mind [51.326266354164716]
本稿では,認知にインスパイアされた音声指導モデルであるSIFToMを提案し,多様な音声条件下でロボットが人間の指示を実践的に追従できるようにする。
結果から,SIFToMモデルは現状の音声モデルや言語モデルよりも優れており,課題に追従する音声命令に対する人間レベルの精度に近づいていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T02:36:10Z) - The formation of perceptual space in early phonetic acquisition: a cross-linguistic modeling approach [0.0]
本研究では,学習者が早期音声習得において知覚空間をどのように構成するかを検討する。
学習した隠れ表現の形状と音韻カテゴリーを分類する能力について検討する。
論文 参考訳(メタデータ) (2024-07-26T04:18:36Z) - Perception of Phonological Assimilation by Neural Speech Recognition Models [3.4173734484549625]
本稿では、ニューラルネットワーク認識モデルであるWav2Vec2が、同化音をどのように知覚するかを考察する。
心理言語学的刺激を用いて、様々な言語文脈がモデル出力の補償パターンにどのように影響するかを分析する。
論文 参考訳(メタデータ) (2024-06-21T15:58:22Z) - Evaluating Speaker Identity Coding in Self-supervised Models and Humans [0.42303492200814446]
話者のアイデンティティは、人間のコミュニケーションにおいて重要な役割を担い、社会的応用においてますます利用されている。
本研究では, 話者識別において, 音響的表現よりも, 話者識別において, 異なる家族の自己指導的表現の方が有意に優れていることを示す。
また、このような話者識別タスクは、これらの強力なネットワークの異なる層における音響情報表現の性質をよりよく理解するためにも利用できることを示す。
論文 参考訳(メタデータ) (2024-06-14T20:07:21Z) - BabySLM: language-acquisition-friendly benchmark of self-supervised
spoken language models [56.93604813379634]
音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。
語彙および構文レベルで音声言語モデルを探索するために,言語習得に親しみやすいベンチマークを提案する。
テキストと音声のギャップを埋めることと、クリーンな音声とその内話のギャップを埋めることである。
論文 参考訳(メタデータ) (2023-06-02T12:54:38Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Model-based analysis of brain activity reveals the hierarchy of language
in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。
そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-12T15:30:21Z) - Can phones, syllables, and words emerge as side-products of
cross-situational audiovisual learning? -- A computational investigation [2.28438857884398]
いわゆる潜在言語仮説(LLH)について検討する。
LLHは言語表現学習を、知覚のモダリティ内および横断的な一般的な予測処理に結びつける。
我々は、様々なニューラルネットワークモデルを用いた広範学習シミュレーションにおけるLLHをさらに探求する。
論文 参考訳(メタデータ) (2021-09-29T05:49:46Z) - Rediscovering the Slavic Continuum in Representations Emerging from
Neural Models of Spoken Language Identification [16.369477141866405]
音声信号におけるスラヴ語識別のためのニューラルモデルを提案する。
本稿では,言語関連性の客観的尺度を反映しているかどうかを調査するために,その創発的表現を分析した。
論文 参考訳(メタデータ) (2020-10-22T18:18:19Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。