論文の概要: The neural dynamics of auditory word recognition and integration
- arxiv url: http://arxiv.org/abs/2305.13388v2
- Date: Tue, 5 Dec 2023 21:20:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 19:13:28.529510
- Title: The neural dynamics of auditory word recognition and integration
- Title(参考訳): 聴覚的単語認識と統合の神経力学
- Authors: Jon Gauthier and Roger Levy
- Abstract要約: 本稿では,この知覚過程をベイズ決定理論で定式化する単語認識の計算モデルを提案する。
我々は,このモデルを用いて,架空の物語を受動的に聴いた被験者が記録した頭皮脳波信号を説明する。
このモデルは、単語が素早く認識できるかどうかに応じて、単語の異なるニューラル処理を明らかにする。
- 参考スコア(独自算出の注目度): 21.582292050622456
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Listeners recognize and integrate words in rapid and noisy everyday speech by
combining expectations about upcoming content with incremental sensory
evidence. We present a computational model of word recognition which formalizes
this perceptual process in Bayesian decision theory. We fit this model to
explain scalp EEG signals recorded as subjects passively listened to a
fictional story, revealing both the dynamics of the online auditory word
recognition process and the neural correlates of the recognition and
integration of words.
The model reveals distinct neural processing of words depending on whether or
not they can be quickly recognized. While all words trigger a neural response
characteristic of probabilistic integration -- voltage modulations predicted by
a word's surprisal in context -- these modulations are amplified for words
which require more than roughly 150 ms of input to be recognized. We observe no
difference in the latency of these neural responses according to words'
recognition times. Our results are consistent with a two-part model of speech
comprehension, combining an eager and rapid process of word recognition with a
temporally independent process of word integration. However, we also developed
alternative models of the scalp EEG signal not incorporating word recognition
dynamics which showed similar performance improvements. We discuss potential
future modeling steps which may help to separate these hypotheses.
- Abstract(参考訳): リスナーは、新しいコンテンツに対する期待と、インクリメンタルな感覚的証拠を組み合わせることで、単語を迅速かつ騒がしい日常会話で認識し統合する。
本稿では,この知覚過程をベイズ決定理論で定式化する単語認識の計算モデルを提案する。
このモデルを用いて、被験者が架空の話に受動的に耳を傾けるように記録した頭皮脳波信号を解析し、オンライン聴覚単語認識プロセスのダイナミクスと、単語の認識と統合の神経的相関の両方を明らかにする。
このモデルでは、単語が素早く認識できるかどうかによって、単語の異なるニューラルプロセッシングを示す。
すべての単語が確率積分の神経応答特性、すなわち単語の前提によって予測される電圧変調をトリガーするが、これらの変調は認識するためにおよそ150ミリ秒以上の入力を必要とする単語に対して増幅される。
単語の認識時間に応じてこれらの神経反応のレイテンシに差は認められない。
本研究は,単語認識の急速なプロセスと時間的に独立な単語統合のプロセスを組み合わせた,音声理解の2部モデルと一致している。
また,同様の性能改善を示す単語認識ダイナミクスを含まない頭皮脳波信号の代替モデルを開発した。
これらの仮説を分離するための将来のモデリング手順について論じる。
関連論文リスト
- A predictive learning model can simulate temporal dynamics and context effects found in neural representations of continuous speech [11.707968216076075]
認知神経科学における最近の研究は、人間の音声のニューラルエンコーディングにおける時間的特徴と文脈的特徴を特定している。
本研究では,非競合音声で学習した計算モデルから抽出した表現を用いて,類似した解析をシミュレートした。
シミュレーションの結果,脳信号に類似した時間的ダイナミクスが明らかとなり,これらの特性が言語的知識を伴わずに生じる可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-13T23:36:19Z) - Exploring neural oscillations during speech perception via surrogate gradient spiking neural networks [59.38765771221084]
本稿では、ディープラーニングフレームワークと互換性があり、スケーラブルな、生理学的にインスパイアされた音声認識アーキテクチャを提案する。
本研究では, 終末から終末までの勾配降下訓練が, 中枢スパイク神経ネットワークにおける神経振動の出現に繋がることを示す。
本研究は, スパイク周波数適応やリカレント接続などのフィードバック機構が, 認識性能を向上させるために, 神経活動の調節と同期に重要な役割を担っていることを明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:40:07Z) - Self-consistent context aware conformer transducer for speech recognition [0.06008132390640294]
ニューラルネットワークアーキテクチャにおいて、再帰的なデータフローを順応的に処理する新しいニューラルネットワークモジュールを導入する。
本手法は, 単語誤り率に悪影響を及ぼすことなく, 稀な単語の認識精度を向上させる。
その結果,両手法の組み合わせにより,まれな単語を最大4.5倍の精度で検出できることが判明した。
論文 参考訳(メタデータ) (2024-02-09T18:12:11Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Modelling word learning and recognition using visually grounded speech [18.136170489933082]
音声認識の計算モデルは、しばしば対象の単語の集合が既に与えられていると仮定する。
これは、これらのモデルが、事前の知識と明示的な監督なしに、スクラッチから音声を認識することを学ばないことを意味する。
視覚接地音声モデルは、音声入力と視覚入力の統計的依存関係を利用して、事前知識のない音声認識を学習する。
論文 参考訳(メタデータ) (2022-03-14T08:59:37Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - Deep Graph Random Process for Relational-Thinking-Based Speech
Recognition [12.09786458466155]
リレーショナルシンキングは、新しい感覚信号と事前知識の関係に関する無数の無意識の知覚に依存している。
本稿では,深部グラフランダムプロセス (DGP) と呼ばれるベイズ的非パラメトリック深層学習手法を提案する。
我々の手法は、訓練中に関係データを用いることなく、発話間の関係を推測できる。
論文 参考訳(メタデータ) (2020-07-04T15:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。