論文の概要: On the Role of Noise in AudioVisual Integration: Evidence from Artificial Neural Networks that Exhibit the McGurk Effect
- arxiv url: http://arxiv.org/abs/2411.05715v1
- Date: Fri, 08 Nov 2024 17:16:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:54:35.223164
- Title: On the Role of Noise in AudioVisual Integration: Evidence from Artificial Neural Networks that Exhibit the McGurk Effect
- Title(参考訳): オーディオビジュアル統合におけるノイズの役割について:マガーク効果を排除したニューラルネットワークによる証拠
- Authors: Lukas Grasse, Matthew S. Tata,
- Abstract要約: 我々は、音声視覚音声で訓練された最近の人工知能ニューラルネットワークの集合を、音声視覚的に相反する単語でテストすることで評価する。
ノイズの多い音声によるトレーニングは、すべてのモデルにおける視覚応答とマガーク応答の両方の増加につながった。
音声視覚学習の重要な期間における過度な騒音暴露は、音声視覚音声統合の発達に悪影響を及ぼす可能性がある。
- 参考スコア(独自算出の注目度): 0.31077024712075796
- License:
- Abstract: Humans are able to fuse information from both auditory and visual modalities to help with understanding speech. This is frequently demonstrated through an phenomenon known as the McGurk Effect, during which a listener is presented with incongruent auditory and visual speech that fuse together into the percept of an illusory intermediate phoneme. Building on a recent framework that proposes how to address developmental 'why' questions using artificial neural networks, we evaluated a set of recent artificial neural networks trained on audiovisual speech by testing them with audiovisually incongruent words designed to elicit the McGurk effect. We compared networks trained on clean speech to those trained on noisy speech, and discovered that training with noisy speech led to an increase in both visual responses and McGurk responses across all models. Furthermore, we observed that systematically increasing the level of auditory noise during ANN training also increased the amount of audiovisual integration up to a point, but at extreme noise levels, this integration failed to develop. These results suggest that excessive noise exposure during critical periods of audiovisual learning may negatively influence the development of audiovisual speech integration. This work also demonstrates that the McGurk effect reliably emerges untrained from the behaviour of both supervised and unsupervised networks. This supports the notion that artificial neural networks might be useful models for certain aspects of perception and cognition.
- Abstract(参考訳): 人間は音声の理解を助けるために、聴覚と視覚の両方から情報を融合することができる。
この現象は、マガーク効果(英語版)と呼ばれる現象を通じてしばしば示され、聞き手は、幻想的な中間音素の知覚に融合する無矛盾な聴覚と視覚のスピーチを提示される。
人工ニューラルネットワークを用いた発達的「なぜ」問題にどのように対処するかを提案する最近のフレームワークに基づいて,McGurk効果を引き出すために考案された音声視覚的不整合語を用いて,音声視覚音声で訓練された最近の人工知能ニューラルネットワークのセットを評価した。
クリーンな音声で訓練されたネットワークをノイズの多い音声で訓練したネットワークと比較したところ、ノイズの多い音声で訓練した結果、すべてのモデルで視覚反応とマガーク反応が増加したことが判明した。
さらに,ANN訓練中の聴覚ノイズのレベルを体系的に増加させると,聴力統合の回数は1ポイントまで増加するが,極端なノイズレベルにおいては,この統合は発展しなかった。
以上の結果から,聴覚学習の重要な期間における過度な騒音暴露は,聴覚音声統合の発達に悪影響を及ぼす可能性が示唆された。
この研究は、マガーク効果が教師なしネットワークと教師なしネットワークの両方の動作から確実に無訓練で現れることを示した。
これは、人工知能が知覚と認知の特定の側面において有用なモデルであるかもしれないという考えを支持する。
関連論文リスト
- Speech2rtMRI: Speech-Guided Diffusion Model for Real-time MRI Video of the Vocal Tract during Speech [29.510756530126837]
音声中の人間の声道のMRIビデオにおいて,音声を視覚的に表現するデータ駆動方式を提案する。
先行知識に埋め込まれた大規模な事前学習音声モデルを用いて、視覚領域を一般化し、見当たらないデータを生成する。
論文 参考訳(メタデータ) (2024-09-23T20:19:24Z) - Exploring neural oscillations during speech perception via surrogate gradient spiking neural networks [59.38765771221084]
本稿では、ディープラーニングフレームワークと互換性があり、スケーラブルな、生理学的にインスパイアされた音声認識アーキテクチャを提案する。
本研究では, 終末から終末までの勾配降下訓練が, 中枢スパイク神経ネットワークにおける神経振動の出現に繋がることを示す。
本研究は, スパイク周波数適応やリカレント接続などのフィードバック機構が, 認識性能を向上させるために, 神経活動の調節と同期に重要な役割を担っていることを明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:40:07Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Does Visual Self-Supervision Improve Learning of Speech Representations
for Emotion Recognition? [63.564385139097624]
本研究は,音声表現の学習を指導するために,顔再構成による視覚的自己監督について検討する。
提案した視覚的・音声的自己監督のマルチタスクの組み合わせは,よりリッチな特徴を学習する上で有益であることを示す。
学習した音声表現を、離散的感情認識、連続的感情認識、自動音声認識のために評価する。
論文 参考訳(メタデータ) (2020-05-04T11:33:40Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。