論文の概要: Can phones, syllables, and words emerge as side-products of
cross-situational audiovisual learning? -- A computational investigation
- arxiv url: http://arxiv.org/abs/2109.14200v2
- Date: Wed, 6 Mar 2024 21:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 18:42:18.044548
- Title: Can phones, syllables, and words emerge as side-products of
cross-situational audiovisual learning? -- A computational investigation
- Title(参考訳): 音声合成学習の副産物として携帯電話, 音節, 単語が出現するか?
--計算による調査
- Authors: Khazar Khorrami, Okko R\"as\"anen
- Abstract要約: いわゆる潜在言語仮説(LLH)について検討する。
LLHは言語表現学習を、知覚のモダリティ内および横断的な一般的な予測処理に結びつける。
我々は、様々なニューラルネットワークモデルを用いた広範学習シミュレーションにおけるLLHをさらに探求する。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Decades of research has studied how language learning infants learn to
discriminate speech sounds, segment words, and associate words with their
meanings. While gradual development of such capabilities is unquestionable, the
exact nature of these skills and the underlying mental representations yet
remains unclear. In parallel, computational studies have shown that basic
comprehension of speech can be achieved by statistical learning between speech
and concurrent referentially ambiguous visual input. These models can operate
without prior linguistic knowledge such as representations of linguistic units,
and without learning mechanisms specifically targeted at such units. This has
raised the question of to what extent knowledge of linguistic units, such as
phone(me)s, syllables, and words, could actually emerge as latent
representations supporting the translation between speech and representations
in other modalities, and without the units being proximal learning targets for
the learner. In this study, we formulate this idea as the so-called latent
language hypothesis (LLH), connecting linguistic representation learning to
general predictive processing within and across sensory modalities. We review
the extent that the audiovisual aspect of LLH is supported by the existing
computational studies. We then explore LLH further in extensive learning
simulations with different neural network models for audiovisual
cross-situational learning, and comparing learning from both synthetic and real
speech data. We investigate whether the latent representations learned by the
networks reflect phonetic, syllabic, or lexical structure of input speech by
utilizing an array of complementary evaluation metrics related to linguistic
selectivity and temporal characteristics of the representations. As a result,
we find that representations associated...
- Abstract(参考訳): 言語学習の幼児は、音声の識別、単語のセグメント化、単語の意味の関連付けを学習する。
このような能力の段階的な発達は疑わしいが、これらのスキルの正確な性質と根底にある精神的表現はまだ不明である。
並行して、計算学的研究により、音声と同時参照的曖昧な視覚入力の間の統計的学習により、音声の基本的理解が達成できることが示されている。
これらのモデルは、言語単位の表現のような事前の言語知識がなく、特にそのような単位をターゲットとした学習メカニズムも持たない。
このことは、音素、音節、単語などの言語単位の知識が、実際に、他のモダリティにおける音声と表現間の翻訳をサポートする潜在表現として出現し、学習者の学習目標に近づかないかどうかという疑問を提起している。
本研究では,この概念をいわゆる潜在言語仮説(llh)として定式化し,言語表現学習と知覚モダリティ内外の一般的な予測処理を結びつける。
LLHのオーディオ視覚的側面が既存の計算研究によって支持されている範囲を概観する。
次に,視聴覚横断学習のための異なるニューラルネットワークモデルを用いた大規模学習シミュレーションを行い,合成音声と実音声データとの学習の比較を行った。
本研究は,言語選択性や時間特性に関連する相補的評価指標を用いて,入力音声の音声的,音韻的,語彙的,語彙的構造を反映しているか否かを検討する。
その結果、表現が関連付けられていることがわかった。
関連論文リスト
- Acoustic characterization of speech rhythm: going beyond metrics with
recurrent neural networks [0.0]
我々は,21言語における音声記録の大規模データベース上で,言語識別タスク上で繰り返しニューラルネットワークを訓練する。
ネットワークは、40%のケースで10秒の録音の言語を識別することができ、その3分の2はトップ3の推測だった。
論文 参考訳(メタデータ) (2024-01-22T09:49:44Z) - BabySLM: language-acquisition-friendly benchmark of self-supervised
spoken language models [56.93604813379634]
音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。
語彙および構文レベルで音声言語モデルを探索するために,言語習得に親しみやすいベンチマークを提案する。
テキストと音声のギャップを埋めることと、クリーンな音声とその内話のギャップを埋めることである。
論文 参考訳(メタデータ) (2023-06-02T12:54:38Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Bridging the Gap: Using Deep Acoustic Representations to Learn Grounded
Language from Percepts and Raw Speech [26.076534338576234]
自然言語と知覚を結びつける基底言語を理解することは、重要な研究分野である。
本研究は,2つの視覚的知覚と生音声入力に基づいて,基底言語習得の実現可能性を示す。
論文 参考訳(メタデータ) (2021-12-27T16:12:30Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - STEPs-RL: Speech-Text Entanglement for Phonetically Sound Representation
Learning [2.28438857884398]
本稿では、音声とテキストの絡み合いを利用して単語表現を学習する、新しいマルチモーダルディープニューラルネットワークアーキテクチャを提案する。
STEPs-RLは、対象の音声単語の音声シーケンスを予測するために教師付き方法で訓練される。
我々のモデルにより生成された潜在表現は、89.47%の精度でターゲット音素列を予測することができた。
論文 参考訳(メタデータ) (2020-11-23T13:29:16Z) - Rediscovering the Slavic Continuum in Representations Emerging from
Neural Models of Spoken Language Identification [16.369477141866405]
音声信号におけるスラヴ語識別のためのニューラルモデルを提案する。
本稿では,言語関連性の客観的尺度を反映しているかどうかを調査するために,その創発的表現を分析した。
論文 参考訳(メタデータ) (2020-10-22T18:18:19Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。