Fugu-MT 論文翻訳(概要): An Audio-Visual Speech Separation Model Inspired by Cortico-Thalamo-Cortical Circuits

論文の概要: An Audio-Visual Speech Separation Model Inspired by Cortico-Thalamo-Cortical Circuits

arxiv url: http://arxiv.org/abs/2212.10744v2
Date: Fri, 22 Mar 2024 14:33:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 06:02:58.793936
Title: An Audio-Visual Speech Separation Model Inspired by Cortico-Thalamo-Cortical Circuits
Title（参考訳）: 皮質-視床-皮質回路にインスパイアされた音声-視覚音声分離モデル
Authors: Kai Li, Fenghua Xie, Hang Chen, Kexin Yuan, Xiaolin Hu,
Abstract要約: 音声・視覚音声分離のための新しい皮質・視床・皮質神経回路(CTCNet)を提案する。 CTCNetは階層的な聴覚と視覚の表現をボトムアップで学習する。 3つの音声分離ベンチマークデータセットの実験では、CTCNetはパラメータがかなり少ない既存のAVSSメソッドよりも著しく優れていた。
参考スコア（独自算出の注目度）: 22.558134249701794
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Audio-visual approaches involving visual inputs have laid the foundation for recent progress in speech separation. However, the optimization of the concurrent usage of auditory and visual inputs is still an active research area. Inspired by the cortico-thalamo-cortical circuit, in which the sensory processing mechanisms of different modalities modulate one another via the non-lemniscal sensory thalamus, we propose a novel cortico-thalamo-cortical neural network (CTCNet) for audio-visual speech separation (AVSS). First, the CTCNet learns hierarchical auditory and visual representations in a bottom-up manner in separate auditory and visual subnetworks, mimicking the functions of the auditory and visual cortical areas. Then, inspired by the large number of connections between cortical regions and the thalamus, the model fuses the auditory and visual information in a thalamic subnetwork through top-down connections. Finally, the model transmits this fused information back to the auditory and visual subnetworks, and the above process is repeated several times. The results of experiments on three speech separation benchmark datasets show that CTCNet remarkably outperforms existing AVSS methods with considerably fewer parameters. These results suggest that mimicking the anatomical connectome of the mammalian brain has great potential for advancing the development of deep neural networks. Project repo is https://github.com/JusperLee/CTCNet.
Abstract（参考訳）: 視覚入力を含む視覚的アプローチは、近年の音声分離の進展の基盤となっている。しかし、聴覚と視覚入力の同時使用の最適化は依然として活発な研究分野である。異なるモーダルの感覚処理機構が非強膜性知覚視床を通じて相互に調節される皮質-視床皮質回路に着想を得て,音声-視覚音声分離のための新しい皮質-視床皮質神経回路(CTCNet)を提案する。まず、CTCNetは、聴覚と視覚のサブネットにおいて、階層的な聴覚と視覚の表現をボトムアップ的に学習し、聴覚と視覚の皮質の機能を模倣する。そして、皮質領域と視床の間の多数の接続に触発され、このモデルは、トップダウン接続を通して視床下部の聴覚情報と視覚情報を融合する。最後に、この融合した情報を聴覚及び視覚サブネットに送信し、上記の処理を何度も繰り返す。 3つの音声分離ベンチマークデータセットによる実験の結果、CTCNetはパラメータがかなり少ない既存のAVSS法よりも著しく優れていた。これらの結果は、哺乳類の脳の解剖学的コネクトームを模倣することは、ディープニューラルネットワークの発展を促進する大きな可能性を持っていることを示唆している。プロジェクトリポジトリはhttps://github.com/JusperLee/CTCNet。

関連論文リスト

SIM: Surface-based fMRI Analysis for Inter-Subject Multimodal Decoding from Movie-Watching Experiments [9.786770726122436]
脳のデコーディングとエンコーディングのための現在のAIフレームワークは、通常、同じデータセット内でモデルをトレーニングし、テストする。モデル一般化の鍵となる障害は、物体間皮質組織の多様性の度合いである。本稿では,大脳皮質機能力学の一般化可能なモデルを構築する表面視覚変換器を用いてこの問題に対処する。
論文参考訳（メタデータ） (2025-01-27T20:05:17Z)
Finding Shared Decodable Concepts and their Negations in the Brain [4.111712524255376]
我々は、自然視画像観察中に脳の反応をCLIP埋め込みにマッピングする非常に正確なコントラストモデルを訓練する。次に、DBSCANクラスタリングアルゴリズムの新たな適応を用いて、参加者固有のコントラストモデルパラメータをクラスタリングする。各SDCクラスタに最も多く,最も関連付けられていない画像を調べることで,各SDCのセマンティック特性についてさらなる知見が得られる。
論文参考訳（メタデータ） (2024-05-27T21:28:26Z)
Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文参考訳（メタデータ） (2023-10-25T08:55:48Z)
HAVE-Net: Hallucinated Audio-Visual Embeddings for Few-Shot Classification with Unimodal Cues [19.800985243540797]
閉鎖性、クラス内変異、照明等は、一方向RS視覚入力を用いたニューラルネットワークのトレーニング中に生じる可能性がある。そこで本稿では,Halucinated Audio-Visual Embeddings-Network (HAVE-Net) という,限られた単調データからメタトレインのクロスモーダルな特徴を抽出する手法を提案する。
論文参考訳（メタデータ） (2023-09-23T20:05:00Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
CASP-Net: Rethinking Video Saliency Prediction from an Audio-VisualConsistency Perceptual Perspective [30.995357472421404]
Video Saliency Prediction (VSP)は、人間の脳の選択的注意機構を模倣する。多くのVSP法は視覚と音声のモーダルのセマンティックな相関性を利用するが、音声・視覚の内在性の時間的矛盾による負の効果は無視する。多感覚情報における生物学的不整合補正にインスパイアされ,一貫性に配慮した音声視線量予測ネットワーク(CASP-Net)が提案される。
論文参考訳（メタデータ） (2023-03-11T09:29:57Z)
Self-supervised models of audio effectively explain human cortical responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文参考訳（メタデータ） (2022-05-27T22:04:02Z)
Prune and distill: similar reformatting of image information along rat visual cortex and deep neural networks [61.60177890353585]
深部畳み込み神経ネットワーク(CNN)は、脳の機能的類似、視覚野の腹側流の優れたモデルを提供することが示されている。ここでは、CNNまたは視覚野の内部表現で知られているいくつかの顕著な統計的パターンについて考察する。我々は、CNNと視覚野が、オブジェクト表現の次元展開/縮小と画像情報の再構成と、同様の密接な関係を持っていることを示す。
論文参考訳（メタデータ） (2022-05-27T08:06:40Z)
Audio-visual multi-channel speech separation, dereverberation and recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。 LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2022-04-05T04:16:03Z)
Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文参考訳（メタデータ） (2021-04-13T13:07:33Z)
Deep Convolutional and Recurrent Networks for Polyphonic Instrument Classification from Monophonic Raw Audio Waveforms [30.3491261167433]
サウンドイベント検出とオーディオ分類タスクは、伝統的にスペクトログラムなどのオーディオ信号の時間周波数表現を通じて対処されます。効率的な特徴抽出器としてのディープニューラルネットワークは、分類目的にオーディオ信号を直接使用可能にする。生の波形を深層学習モデルに入力するだけで,ポリフォニック・オーディオで楽器を認識する。
論文参考訳（メタデータ） (2021-02-13T13:44:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。