論文の概要: Successes and critical failures of neural networks in capturing
human-like speech recognition
- arxiv url: http://arxiv.org/abs/2204.03740v4
- Date: Wed, 19 Apr 2023 12:12:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 18:15:34.311483
- Title: Successes and critical failures of neural networks in capturing
human-like speech recognition
- Title(参考訳): 人間ライクな音声認識におけるニューラルネットワークの成功と批判的失敗
- Authors: Federico Adolfi, Jeffrey S. Bowers, David Poeppel
- Abstract要約: 音声認識は、本質的に人間には様々な分光時間的粒度の多数の変換に対して堅牢である。
我々は、現状のニューラルネットワークを刺激計算可能で最適化されたオブザーバとして評価する。
- 参考スコア(独自算出の注目度): 1.1602089225841632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural and artificial audition can in principle acquire different solutions
to a given problem. The constraints of the task, however, can nudge the
cognitive science and engineering of audition to qualitatively converge,
suggesting that a closer mutual examination would potentially enrich artificial
hearing systems and process models of the mind and brain. Speech recognition -
an area ripe for such exploration - is inherently robust in humans to a number
transformations at various spectrotemporal granularities. To what extent are
these robustness profiles accounted for by high-performing neural network
systems? We bring together experiments in speech recognition under a single
synthesis framework to evaluate state-of-the-art neural networks as
stimulus-computable, optimized observers. In a series of experiments, we (1)
clarify how influential speech manipulations in the literature relate to each
other and to natural speech, (2) show the granularities at which machines
exhibit out-of-distribution robustness, reproducing classical perceptual
phenomena in humans, (3) identify the specific conditions where model
predictions of human performance differ, and (4) demonstrate a crucial failure
of all artificial systems to perceptually recover where humans do, suggesting
alternative directions for theory and model building. These findings encourage
a tighter synergy between the cognitive science and engineering of audition.
- Abstract(参考訳): 自然と人工のオーディションは、原則として与えられた問題に対する異なる解を得ることができる。
しかし、タスクの制約は、オーディションの認知科学と工学を質的に収束させる可能性があり、より緊密な相互検査は、人工聴覚システムと心と脳のプロセスモデルを強化する可能性を示唆している。
音声認識 この領域は、人間にとって本質的には様々なスペクトル時間粒度の多くの変換に頑健である。
これらの堅牢性プロファイルは、ハイパフォーマンスニューラルネットワークシステムによってどの程度まで説明されていますか?
ニューラルネットワークを刺激計算可能な最適化オブザーバとして評価するために,単一合成モデルに基づく音声認識実験を行った。
In a series of experiments, we (1) clarify how influential speech manipulations in the literature relate to each other and to natural speech, (2) show the granularities at which machines exhibit out-of-distribution robustness, reproducing classical perceptual phenomena in humans, (3) identify the specific conditions where model predictions of human performance differ, and (4) demonstrate a crucial failure of all artificial systems to perceptually recover where humans do, suggesting alternative directions for theory and model building.
これらの知見は、認知科学とオーディションの工学との密接な相乗効果を促進する。
関連論文リスト
- Exploring neural oscillations during speech perception via surrogate gradient spiking neural networks [59.38765771221084]
本稿では、ディープラーニングフレームワークと互換性があり、スケーラブルな、生理学的にインスパイアされた音声認識アーキテクチャを提案する。
本研究では, 終末から終末までの勾配降下訓練が, 中枢スパイク神経ネットワークにおける神経振動の出現に繋がることを示す。
本研究は, スパイク周波数適応やリカレント接続などのフィードバック機構が, 認識性能を向上させるために, 神経活動の調節と同期に重要な役割を担っていることを明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:40:07Z) - Exploring mechanisms of Neural Robustness: probing the bridge between geometry and spectrum [0.0]
本研究では, 重み, ジャコビアン, スペクトル正規化による表現の滑らかさとスペクトルの関係について検討した。
本研究の目的は, 神経表現における幾何学的特徴, スペクトル特性, 頑健性, 表現性の間の相互作用を理解することである。
論文 参考訳(メタデータ) (2024-02-05T12:06:00Z) - Brain-Inspired Machine Intelligence: A Survey of
Neurobiologically-Plausible Credit Assignment [65.268245109828]
本稿では,神経生物学にインスパイアされた,あるいは動機付けられた人工ニューラルネットワークにおける信用割当を行うアルゴリズムについて検討する。
我々は、脳にインスパイアされた学習スキームを6つの一般的なファミリーにまとめ、これらを誤りのバックプロパゲーションの文脈で検討する。
本研究の成果は,神経ミメティックシステムとその構成的学習プロセスの今後の発展を促進することを目的としている。
論文 参考訳(メタデータ) (2023-12-01T05:20:57Z) - A Neuro-mimetic Realization of the Common Model of Cognition via Hebbian
Learning and Free Energy Minimization [55.11642177631929]
大規模なニューラル生成モデルは、意味的に豊富なテキストのパスを合成したり、複雑な画像を生成することができる。
我々はコモン・モデル・オブ・コグニティブ・ニューラル・ジェネレーティブ・システムについて論じる。
論文 参考訳(メタデータ) (2023-10-14T23:28:48Z) - Data-driven emotional body language generation for social robotics [58.88028813371423]
社会ロボティクスでは、人間型ロボットに感情の身体的表現を生成する能力を与えることで、人間とロボットの相互作用とコラボレーションを改善することができる。
我々は、手作業で設計されたいくつかの身体表現から学習する深層学習データ駆動フレームワークを実装した。
評価実験の結果, 生成した表現の人間同型とアニマシーは手作りの表現と異なる認識が得られなかった。
論文 参考訳(メタデータ) (2022-05-02T09:21:39Z) - Predictive Coding and Stochastic Resonance: Towards a Unified Theory of
Auditory (Phantom) Perception [6.416574036611064]
脳機能の機械的理解を得るためには、仮説駆動実験には生物学的に妥当な計算モデルが伴わなければならない。
本稿では,人工知能,心理学,神経科学の交差点における最近の研究について概説する。
脳内でユビキタスである2つの基本的な処理原則は、多数の実験結果に最も適していると結論付けます。
論文 参考訳(メタデータ) (2022-04-07T10:47:58Z) - The world seems different in a social context: a neural network analysis
of human experimental data [57.729312306803955]
本研究では,先行・知覚的信号の精度を変化させることで,個人・社会的タスク設定の両方で人間の行動データを再現可能であることを示す。
トレーニングされたネットワークの神経活性化トレースの分析は、情報が個人や社会的条件のネットワークにおいて、根本的に異なる方法でコード化されていることを示す。
論文 参考訳(メタデータ) (2022-03-03T17:19:12Z) - Deep Interpretable Models of Theory of Mind For Human-Agent Teaming [0.7734726150561086]
我々は、他の観測対象の意図をモデル化するための解釈可能なモジュラー・ニューラル・フレームワークを開発する。
Minecraftの検索および救助タスクで、人間の参加者のデータに関する実験を行い、アプローチの有効性を実証します。
論文 参考訳(メタデータ) (2021-04-07T06:18:58Z) - Understanding Information Processing in Human Brain by Interpreting
Machine Learning Models [1.14219428942199]
この論文は、ニューラルネットワークの直感的な計算モデルを作成する上で、機械学習メソッドが果たす役割を探求している。
この視点は、コンピュータ神経科学に対する探索的およびデータ駆動のアプローチが果たす大きな役割を支持する。
論文 参考訳(メタデータ) (2020-10-17T04:37:26Z) - Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである
本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文 参考訳(メタデータ) (2020-06-15T13:59:47Z) - Bio-Inspired Modality Fusion for Active Speaker Detection [1.0644456464343592]
本稿では,アクティブ話者検出のための聴覚情報と視覚情報を融合する手法を提案する。
この機能は、遠隔会議システムからソーシャルロボティクスまで、幅広い用途を持つことができる。
論文 参考訳(メタデータ) (2020-02-28T20:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。