論文の概要: Cracking the neural code for word recognition in convolutional neural networks
- arxiv url: http://arxiv.org/abs/2403.06159v2
- Date: Thu, 18 Jul 2024 10:32:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 21:21:41.874879
- Title: Cracking the neural code for word recognition in convolutional neural networks
- Title(参考訳): 畳み込みニューラルネットワークにおける単語認識のためのニューラルネットワークの解読
- Authors: Aakash Agrawal, Stanislas Dehaene,
- Abstract要約: 学習スクリプトにおける単語認識のために,単位の小さなサブセットがどのように特殊化されるかを示す。
これらのユニットは、単語の左または右の空白空間からの距離や特定の文字の識別に敏感であることを示す。
提案したニューラルネットワークは,文字の同一性や位置に関する情報を抽出し,不変な単語認識を可能にするメカニズム的な知見を提供する。
- 参考スコア(独自算出の注目度): 1.0991358618541507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to read places a strong challenge on the visual system. Years of expertise lead to a remarkable capacity to separate highly similar letters and encode their relative positions, thus distinguishing words such as FORM and FROM, invariantly over a large range of sizes and absolute positions. How neural circuits achieve invariant word recognition remains unknown. Here, we address this issue by training deep neural network models to recognize written words and then analyzing how reading-specialized units emerge and operate across different layers of the network. With literacy, a small subset of units becomes specialized for word recognition in the learned script, similar to the "visual word form area" of the human brain. We show that these units are sensitive to specific letter identities and their distance from the blank space at the left or right of a word, thus acting as "space bigrams". These units specifically encode ordinal positions and operate by pooling across low and high-frequency detector units from early layers of the network. The proposed neural code provides a mechanistic insight into how information on letter identity and position is extracted and allow for invariant word recognition, and leads to predictions for reading behavior, error patterns, and the neurophysiology of reading.
- Abstract(参考訳): 読むことを学ぶことは、視覚システムに強い挑戦をする。
長年の専門知識は、非常に類似した文字を分離し、それらの相対的な位置を符号化し、様々な大きさと絶対的な位置で、formやfromのような単語を区別する、顕著な能力に繋がる。
ニューラルネットワークがいかに不変な単語認識を実現するかは、まだ不明である。
ここでは、深層ニューラルネットワークモデルをトレーニングして、書き言葉を認識し、読み出し専用ユニットがどのように出現し、ネットワークの異なる層にまたがって機能するかを分析することで、この問題に対処する。
リテラシーによって、少数の単位が、人間の脳の「視覚的語形領域」に似た、学習されたスクリプトにおける単語認識のために特殊化される。
これらの単位は、単語の左または右の空白空間からの距離や特定の文字の識別に敏感であることを示し、「スペースビッグラム」として機能する。
これらのユニットは特定の順序位置を符号化し、ネットワークの初期の層から低周波検出器ユニットと高周波検出器ユニットをプールすることで動作する。
提案したニューラルネットワークは、文字の同一性や位置に関する情報を抽出し、不変な単語認識を可能にし、読み出し行動、エラーパターン、読み出しの神経生理学の予測につながるメカニズム的な知見を提供する。
関連論文リスト
- Closed-Form Interpretation of Neural Network Latent Spaces with Symbolic Gradients [0.0]
本稿では,ニューラルネットワークの潜在空間におけるニューロンのクローズドフォーム解釈の枠組みを提案する。
解釈フレームワークは、トレーニングされたニューラルネットワークを同じ概念をエンコードする同値クラスの関数に埋め込むことに基づいている。
論文 参考訳(メタデータ) (2024-09-09T03:26:07Z) - Explaining Spectrograms in Machine Learning: A Study on Neural Networks for Speech Classification [2.4472308031704073]
本研究では,ニューラルネットワークで学習した音声の正確な分類のための識別パターンについて検討する。
母音分類のためのニューラルネットワークのアクティベーションと特徴を調べることで、スペクトログラムでネットワークが何を見るかについての洞察を得る。
論文 参考訳(メタデータ) (2024-07-10T07:37:18Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - BrainBERT: Self-supervised representation learning for intracranial
recordings [18.52962864519609]
我々は、神経科学に現代的な表現学習アプローチをもたらす頭蓋内記録のための再利用可能な変換器BrainBERTを開発した。
NLPや音声認識と同様に、この変換器は複雑な概念を高い精度で、はるかに少ないデータで分類することができる。
将来的には、表現学習を使用することで、はるかに多くの概念がニューラル録音から切り離され、言語モデルがアンロックされた言語のように脳をアンロックする可能性がある。
論文 参考訳(メタデータ) (2023-02-28T07:40:37Z) - Convolutional Neural Networks Trained to Identify Words Provide a Good
Account of Visual Form Priming Effects [14.202583960390394]
深層畳み込みネットワークは, 符号化方式や単語認識モデルよりも, あるいはそれ以上に機能することがわかった。
発見は、畳み込みネットワークが視覚的単語識別の重要な側面を捉えていることを示唆する最近の研究に重きを置いている。
論文 参考訳(メタデータ) (2023-02-08T11:01:19Z) - Surrogate Gradient Spiking Neural Networks as Encoders for Large
Vocabulary Continuous Speech Recognition [91.39701446828144]
スパイクニューラルネットワークは, 代理勾配法を用いて, 通常のリカレントニューラルネットワークのように訓練可能であることを示す。
彼らは音声コマンド認識タスクについて有望な結果を示した。
繰り返し発生する非スパイキングとは対照的に、ゲートを使わずに爆発する勾配問題に対して堅牢性を示す。
論文 参考訳(メタデータ) (2022-12-01T12:36:26Z) - Measures of Information Reflect Memorization Patterns [53.71420125627608]
異なるニューロンの活性化パターンの多様性は、モデル一般化と記憶の反映であることを示す。
重要なことは、情報組織が記憶の2つの形態を指していることである。
論文 参考訳(メタデータ) (2022-10-17T20:15:24Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - Low-Dimensional Structure in the Space of Language Representations is
Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。
この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。
これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-06-09T22:59:12Z) - Learning Neural Networks on SVD Boosted Latent Spaces for Semantic
Classification [0.0]
本研究では,高次元入力空間を低次元潜在空間に変換するために特異値分解法を提案する。
この低次元空間で訓練されたニューラルネットワークは、計算量を大幅に削減しながら性能を維持することができる。
論文 参考訳(メタデータ) (2021-01-03T05:30:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。