論文の概要: Computational modeling of early language learning from acoustic speech and audiovisual input without linguistic priors
- arxiv url: http://arxiv.org/abs/2603.08359v2
- Date: Wed, 11 Mar 2026 07:42:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 14:12:44.155674
- Title: Computational modeling of early language learning from acoustic speech and audiovisual input without linguistic priors
- Title(参考訳): 音声音声からの早期言語学習のモデル化と音声視覚入力
- Authors: Okko Räsänen,
- Abstract要約: 本章は,音声と音声の入力からの初期言語習得を理解するために,計算モデルを用いた最近の展開を概観する。
これらのモデルが、強い言語的先入観を伴わずに、音声の様々な側面を学習する上で、いかに強力になってきているかを示す。
また, 幼児期の言語発達に関する経験的知見とモデル行動のリンクにおいて, 現代の学習シミュレーションが徐々に現実的になりつつあることについても論じる。
- 参考スコア(独自算出の注目度): 6.572270548318532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to understand speech appears almost effortless for typically developing infants, yet from an information-processing perspective, acquiring a language from acoustic speech is an enormous challenge. This chapter reviews recent developments in using computational models to understand early language acquisition from speech and audiovisual input. The focus is on self-supervised and visually grounded models of perceptual learning. We show how these models are becoming increasingly powerful in learning various aspects of speech without strong linguistic priors, and how many features of early language development can be explained through a shared set of learning principles-principles broadly compatible with multiple theories of language acquisition and human cognition. We also discuss how modern learning simulations are gradually becoming more realistic, both in terms of input data and in linking model behavior to empirical findings on infant language development.
- Abstract(参考訳): しかし、情報処理の観点からみると、音響音声から言語を取得することは大きな課題である。
本章は,音声と音声の入力からの初期言語習得を理解するために,計算モデルを用いた最近の展開を概観する。
焦点は、知覚学習の自己監督的かつ視覚的に基礎付けられたモデルである。
言語習得と人間の認知という複数の理論に広く適合する学習原理の共有を通じて,これらのモデルがどのようにして言語発達の様々な側面を学ぶのに強くなりつつあるのか,また,早期言語発達の特徴がどの程度説明できるのかを示す。
また, 幼児期の言語発達に関する経験的知見とモデル行動のリンクにおいて, 現代の学習シミュレーションが徐々に現実的になりつつあることについても論じる。
関連論文リスト
- OpenOmni: Advancing Open-Source Omnimodal Large Language Models with Progressive Multimodal Alignment and Real-Time Self-Aware Emotional Speech Synthesis [95.27191872116306]
nameは、一様アライメントと音声生成を統合する2段階のトレーニングフレームワークである。
雑用、視覚言語、音声言語ベンチマークで最先端モデルを上回っている。
nameは、非自己回帰モードで1秒のレイテンシでリアルタイムの音声生成を実現する。
論文 参考訳(メタデータ) (2025-01-08T15:18:09Z) - Developmental Predictive Coding Model for Early Infancy Mono and Bilingual Vocal Continual Learning [69.8008228833895]
本稿では,連続学習機構を備えた小型生成ニューラルネットワークを提案する。
我々のモデルは解釈可能性を重視し,オンライン学習の利点を実証する。
論文 参考訳(メタデータ) (2024-12-23T10:23:47Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Communication Drives the Emergence of Language Universals in Neural
Agents: Evidence from the Word-order/Case-marking Trade-off [3.631024220680066]
ニューラルエージェント言語学習通信フレームワーク(NeLLCom)を提案する。
我々はエージェントに特定のバイアスをハードコーディングすることなく、新しいフレームワークでトレードオフを複製することに成功しました。
論文 参考訳(メタデータ) (2023-01-30T17:22:33Z) - Bridging the Gap: Using Deep Acoustic Representations to Learn Grounded
Language from Percepts and Raw Speech [26.076534338576234]
自然言語と知覚を結びつける基底言語を理解することは、重要な研究分野である。
本研究は,2つの視覚的知覚と生音声入力に基づいて,基底言語習得の実現可能性を示す。
論文 参考訳(メタデータ) (2021-12-27T16:12:30Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Can phones, syllables, and words emerge as side-products of
cross-situational audiovisual learning? -- A computational investigation [2.28438857884398]
いわゆる潜在言語仮説(LLH)について検討する。
LLHは言語表現学習を、知覚のモダリティ内および横断的な一般的な予測処理に結びつける。
我々は、様々なニューラルネットワークモデルを用いた広範学習シミュレーションにおけるLLHをさらに探求する。
論文 参考訳(メタデータ) (2021-09-29T05:49:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。