論文の概要: An Audio-Visual Speech Separation Model Inspired by
Cortico-Thalamo-Cortical Circuits
- arxiv url: http://arxiv.org/abs/2212.10744v1
- Date: Wed, 21 Dec 2022 03:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 15:29:57.456130
- Title: An Audio-Visual Speech Separation Model Inspired by
Cortico-Thalamo-Cortical Circuits
- Title(参考訳): 皮質-視床-皮質回路による音声-視覚音声分離モデル
- Authors: Kai Li, Fenghua Xie, Hang Chen, Kexin Yuan, Xiaolin Hu
- Abstract要約: 音声・視覚音声分離のための新しい皮質・視床・皮質神経回路(CTCNet)を提案する。
CTCNetは階層的な聴覚と視覚の表現をボトムアップで学習する。
3つの音声分離ベンチマークデータセットの実験により、CTCNetは、パラメータがかなり少ない既存のAVSSメソッドよりも著しく優れていることが示された。
- 参考スコア(独自算出の注目度): 25.805882822831844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual approaches involving visual inputs have laid the foundation for
recent progress in speech separation. However, the optimization of the
concurrent usage of auditory and visual inputs is still an active research
area. Inspired by the cortico-thalamo-cortical circuit, in which the sensory
processing mechanisms of different modalities modulate one another via the
non-lemniscal sensory thalamus, we propose a novel cortico-thalamo-cortical
neural network (CTCNet) for audio-visual speech separation (AVSS). First, the
CTCNet learns hierarchical auditory and visual representations in a bottom-up
manner in separate auditory and visual subnetworks, mimicking the functions of
the auditory and visual cortical areas. Then, inspired by the large number of
connections between cortical regions and the thalamus, the model fuses the
auditory and visual information in a thalamic subnetwork through top-down
connections. Finally, the model transmits this fused information back to the
auditory and visual subnetworks, and the above process is repeated several
times. The results of experiments on three speech separation benchmark datasets
show that CTCNet remarkably outperforms existing AVSS methods with
considerablely fewer parameters. These results suggest that mimicking the
anatomical connectome of the mammalian brain has great potential for advancing
the development of deep neural networks. Project repo is
https://github.com/JusperLee/CTCNet.
- Abstract(参考訳): 視覚入力を含む視聴覚アプローチは、音声分離の最近の進歩の基礎を築いた。
しかし,聴覚と視覚の同時使用の最適化は依然として活発な研究分野である。
異なるモーダルの感覚処理機構が非強膜性知覚視床を通じて相互に調節される皮質-視床皮質回路に着想を得て,音声-視覚音声分離のための新しい皮質-視床皮質神経回路(CTCNet)を提案する。
まず、ctcnetは、聴覚および視覚皮質領域の機能の模倣により、分離された聴覚および視覚サブネットワークにおいて、ボトムアップ方式で階層的な聴覚および視覚表現を学習する。
そして、皮質領域と視床の間の多数の接続にインスパイアされ、モデルはトップダウン接続を介して視床サブネットワーク内の聴覚と視覚情報を融合する。
最後に、この融合した情報を聴覚及び視覚サブネットに送信し、上記の処理を何度も繰り返す。
3つの音声分離ベンチマークデータセットによる実験の結果、CTCNetはパラメータがかなり少ない既存のAVSS法よりも著しく優れていた。
これらの結果は、哺乳類の脳の解剖学的コネクトームを模倣することは、ディープニューラルネットワークの発展を促進する大きな可能性を示唆している。
プロジェクトリポジトリはhttps://github.com/JusperLee/CTCNet。
関連論文リスト
- Finding Shared Decodable Concepts and their Negations in the Brain [4.111712524255376]
我々は、自然視画像観察中に脳の反応をCLIP埋め込みにマッピングする非常に正確なコントラストモデルを訓練する。
次に、DBSCANクラスタリングアルゴリズムの新たな適応を用いて、参加者固有のコントラストモデルパラメータをクラスタリングする。
各SDCクラスタに最も多く,最も関連付けられていない画像を調べることで,各SDCのセマンティック特性についてさらなる知見が得られる。
論文 参考訳(メタデータ) (2024-05-27T21:28:26Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - HAVE-Net: Hallucinated Audio-Visual Embeddings for Few-Shot
Classification with Unimodal Cues [19.800985243540797]
閉鎖性、クラス内変異、照明等は、一方向RS視覚入力を用いたニューラルネットワークのトレーニング中に生じる可能性がある。
そこで本稿では,Halucinated Audio-Visual Embeddings-Network (HAVE-Net) という,限られた単調データからメタトレインのクロスモーダルな特徴を抽出する手法を提案する。
論文 参考訳(メタデータ) (2023-09-23T20:05:00Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - CASP-Net: Rethinking Video Saliency Prediction from an
Audio-VisualConsistency Perceptual Perspective [30.995357472421404]
Video Saliency Prediction (VSP)は、人間の脳の選択的注意機構を模倣する。
多くのVSP法は視覚と音声のモーダルのセマンティックな相関性を利用するが、音声・視覚の内在性の時間的矛盾による負の効果は無視する。
多感覚情報における生物学的不整合補正にインスパイアされ,一貫性に配慮した音声視線量予測ネットワーク(CASP-Net)が提案される。
論文 参考訳(メタデータ) (2023-03-11T09:29:57Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Prune and distill: similar reformatting of image information along rat
visual cortex and deep neural networks [61.60177890353585]
深部畳み込み神経ネットワーク(CNN)は、脳の機能的類似、視覚野の腹側流の優れたモデルを提供することが示されている。
ここでは、CNNまたは視覚野の内部表現で知られているいくつかの顕著な統計的パターンについて考察する。
我々は、CNNと視覚野が、オブジェクト表現の次元展開/縮小と画像情報の再構成と、同様の密接な関係を持っていることを示す。
論文 参考訳(メタデータ) (2022-05-27T08:06:40Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z) - Deep Convolutional and Recurrent Networks for Polyphonic Instrument
Classification from Monophonic Raw Audio Waveforms [30.3491261167433]
サウンドイベント検出とオーディオ分類タスクは、伝統的にスペクトログラムなどのオーディオ信号の時間周波数表現を通じて対処されます。
効率的な特徴抽出器としてのディープニューラルネットワークは、分類目的にオーディオ信号を直接使用可能にする。
生の波形を深層学習モデルに入力するだけで,ポリフォニック・オーディオで楽器を認識する。
論文 参考訳(メタデータ) (2021-02-13T13:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。