論文の概要: Bio-Inspired Modality Fusion for Active Speaker Detection
- arxiv url: http://arxiv.org/abs/2003.00063v2
- Date: Tue, 13 Apr 2021 11:05:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 01:21:00.486456
- Title: Bio-Inspired Modality Fusion for Active Speaker Detection
- Title(参考訳): アクティブ話者検出のためのバイオインスパイアモダリティ融合
- Authors: Gustavo Assun\c{c}\~ao, Nuno Gon\c{c}alves, Paulo Menezes
- Abstract要約: 本稿では,アクティブ話者検出のための聴覚情報と視覚情報を融合する手法を提案する。
この機能は、遠隔会議システムからソーシャルロボティクスまで、幅広い用途を持つことができる。
- 参考スコア(独自算出の注目度): 1.0644456464343592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human beings have developed fantastic abilities to integrate information from
various sensory sources exploring their inherent complementarity. Perceptual
capabilities are therefore heightened, enabling, for instance, the well-known
"cocktail party" and McGurk effects, i.e., speech disambiguation from a panoply
of sound signals. This fusion ability is also key in refining the perception of
sound source location, as in distinguishing whose voice is being heard in a
group conversation. Furthermore, neuroscience has successfully identified the
superior colliculus region in the brain as the one responsible for this
modality fusion, with a handful of biological models having been proposed to
approach its underlying neurophysiological process. Deriving inspiration from
one of these models, this paper presents a methodology for effectively fusing
correlated auditory and visual information for active speaker detection. Such
an ability can have a wide range of applications, from teleconferencing systems
to social robotics. The detection approach initially routes auditory and visual
information through two specialized neural network structures. The resulting
embeddings are fused via a novel layer based on the superior colliculus, whose
topological structure emulates spatial neuron cross-mapping of unimodal
perceptual fields. The validation process employed two publicly available
datasets, with achieved results confirming and greatly surpassing initial
expectations.
- Abstract(参考訳): 人間は、固有の相補性を探求する様々な感覚源からの情報を統合する素晴らしい能力を開発した。
したがって知覚能力は高められ、例えば、よく知られた「カクテルパーティ」やマクグルク効果、すなわち、音声信号のパノピーからの曖昧さを解消することができる。
この融合能力は、グループ会話でどの声が聞こえているかを区別するなど、音源位置の知覚を改善する上でも重要である。
さらに、神経科学は脳の上丘領域をこの様相融合の原因と同定し、その基礎となる神経生理学的過程に近づくためのいくつかの生物学的モデルが提案されている。
本稿では,これらのモデルの1つからインスピレーションを得て,アクティブ話者検出のための相関聴覚情報と視覚情報を効果的に融合させる手法を提案する。
このような能力は、テレ会議システムからソーシャルロボティクスまで、幅広い応用をすることができる。
検出アプローチは最初、2つの特殊なニューラルネットワーク構造を通して聴覚と視覚情報をルーティングする。
結果として生じる埋め込みは、トポロジカルな構造が単頭知覚野の空間ニューロン横断マッピングをエミュレートする上行結腸に基づく新しい層を介して融合される。
検証プロセスは2つの公開データセットを使用しており、達成された結果が最初の期待を大きく上回った。
関連論文リスト
- Exploring neural oscillations during speech perception via surrogate gradient spiking neural networks [59.38765771221084]
本稿では、ディープラーニングフレームワークと互換性があり、スケーラブルな、生理学的にインスパイアされた音声認識アーキテクチャを提案する。
本研究では, 終末から終末までの勾配降下訓練が, 中枢スパイク神経ネットワークにおける神経振動の出現に繋がることを示す。
本研究は, スパイク周波数適応やリカレント接続などのフィードバック機構が, 認識性能を向上させるために, 神経活動の調節と同期に重要な役割を担っていることを明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:40:07Z) - Towards Decoding Brain Activity During Passive Listening of Speech [0.0]
深層学習法を用いて頭蓋内脳波(iEEG)データから発声音声を復号しようとする。
このアプローチは、従来の音声生成の焦点から外れ、知覚された音声の神経表現を調査することを選択する。
アプローチはまだ画期的な成果を上げていないが、この研究は、音声認識中の神経活動の復号化の可能性に光を当てている。
論文 参考訳(メタデータ) (2024-02-26T20:04:01Z) - Brain-Inspired Machine Intelligence: A Survey of
Neurobiologically-Plausible Credit Assignment [65.268245109828]
本稿では,神経生物学にインスパイアされた,あるいは動機付けられた人工ニューラルネットワークにおける信用割当を行うアルゴリズムについて検討する。
我々は、脳にインスパイアされた学習スキームを6つの一般的なファミリーにまとめ、これらを誤りのバックプロパゲーションの文脈で検討する。
本研究の成果は,神経ミメティックシステムとその構成的学習プロセスの今後の発展を促進することを目的としている。
論文 参考訳(メタデータ) (2023-12-01T05:20:57Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Canonical Cortical Graph Neural Networks and its Application for Speech
Enhancement in Future Audio-Visual Hearing Aids [0.726437825413781]
本稿では, 層内変調を用いたマルチモーダル情報と正準相関解析(CCA)を組み合わせた, より生物学的に妥当な自己教師型機械学習手法を提案する。
この手法は、よりクリーンなオーディオ再構成とエネルギー効率の両方を考慮した最近の最先端の結果より優れており、スモーザーでスモーザーなニューロンの発火速度分布によって説明されている。
論文 参考訳(メタデータ) (2022-06-06T15:20:07Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Deep Representations for Time-varying Brain Datasets [4.129225533930966]
本稿では、領域マップされたfMRIシーケンスと構造接続性の両方を入力として組み込んだ効率的なグラフニューラルネットワークモデルを構築する。
サンプルレベルの適応的隣接行列を学習することで、潜伏する脳のダイナミクスのよい表現を見つけ出す。
これらのモジュールは容易に適応でき、神経科学領域以外の用途にも有用である可能性がある。
論文 参考訳(メタデータ) (2022-05-23T21:57:31Z) - Successes and critical failures of neural networks in capturing
human-like speech recognition [1.1602089225841632]
音声認識は、本質的に人間には様々な分光時間的粒度の多数の変換に対して堅牢である。
我々は、現状のニューラルネットワークを刺激計算可能で最適化されたオブザーバとして評価する。
論文 参考訳(メタデータ) (2022-04-06T06:35:10Z) - Model-based analysis of brain activity reveals the hierarchy of language
in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。
そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-12T15:30:21Z) - CogAlign: Learning to Align Textual Neural Representations to Cognitive
Language Processing Signals [60.921888445317705]
自然言語処理モデルに認知言語処理信号を統合するためのCogAlignアプローチを提案する。
我々は、CogAlignが、パブリックデータセット上の最先端モデルよりも、複数の認知機能で大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-10T07:10:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。