論文の概要: Multimodal Speech Enhancement Using Burst Propagation
- arxiv url: http://arxiv.org/abs/2209.03275v1
- Date: Wed, 7 Sep 2022 16:27:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 13:16:58.934480
- Title: Multimodal Speech Enhancement Using Burst Propagation
- Title(参考訳): バースト伝搬を用いたマルチモーダル音声強調
- Authors: Leandro A. Passos, Ahmed Khubaib, Mohsin Raza, Ahsan Adeel
- Abstract要約: 本稿では,音声・視覚的音声強調のための新しいマルチモーダルソリューションMBURSTを提案する。
より生物学的に妥当な方法で、信用割当問題に対処するためのいくつかの基準を実装している。
Grid Corpus と CHiME3 ベースのデータセットを用いて行った実験では、MBURST が類似したマスク再構成をマルチモーダルバックプロパゲーションベースのベースラインに再現できることが示されている。
- 参考スコア(独自算出の注目度): 1.137457877869062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes the MBURST, a novel multimodal solution for audio-visual
speech enhancements that consider the most recent neurological discoveries
regarding pyramidal cells of the prefrontal cortex and other brain regions. The
so-called burst propagation implements several criteria to address the credit
assignment problem in a more biologically plausible manner: steering the sign
and magnitude of plasticity through feedback, multiplexing the feedback and
feedforward information across layers through different weight connections,
approximating feedback and feedforward connections, and linearizing the
feedback signals. MBURST benefits from such capabilities to learn correlations
between the noisy signal and the visual stimuli, thus attributing meaning to
the speech by amplifying relevant information and suppressing noise.
Experiments conducted over a Grid Corpus and CHiME3-based dataset show that
MBURST can reproduce similar mask reconstructions to the multimodal
backpropagation-based baseline while demonstrating outstanding energy
efficiency management, reducing the neuron firing rates to values up to
\textbf{$70\%$} lower. Such a feature implies more sustainable implementations,
suitable and desirable for hearing aids or any other similar embedded systems.
- Abstract(参考訳): 本稿では,前頭前皮質および他の脳領域の錐体細胞に関する最新の神経学的発見を考察した,音声・視覚音声強調のための新しいマルチモーダルソリューションMBURSTを提案する。
いわゆるバースト伝搬は、フィードバックによる可塑性のサインと大きさの操り、異なる重み接続による層間のフィードバックとフィードフォワード情報の多重化、フィードバックとフィードフォワード接続の近似、フィードバック信号の線形化など、より生物学的に妥当な方法でクレジット割り当て問題に取り組むためのいくつかの基準を実装している。
MBURSTは、雑音信号と視覚刺激の相関関係を学習する能力の恩恵を受け、関連する情報を増幅し、雑音を抑制することによって、音声に意味をもたらす。
Grid Corpus と CHiME3 をベースとしたデータセットを用いて行った実験では、MBURST はマルチモーダルバックプロパゲーションベースのベースラインに類似したマスク再構成を再現でき、エネルギー効率の優れた管理を証明し、ニューロンの発火速度を \textbf{$70\%$} 以下の値に下げることができた。
このような機能はより持続可能な実装を意味し、補聴器や他の類似の組み込みシステムに適している。
関連論文リスト
- Reverse the auditory processing pathway: Coarse-to-fine audio reconstruction from fMRI [20.432212333539628]
本稿では,機能的磁気共鳴画像(fMRI)データに基づく,より粗い音響再構成手法を提案する。
我々は,3つの公開fMRIデータセットであるBrain2Sound,Brain2Music,Brain2Speechについて検証を行った。
復号化時に意味的プロンプトを用いることで,意味的特徴が最適でない場合に,再構成音声の品質を向上させる。
論文 参考訳(メタデータ) (2024-05-29T03:16:14Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Speech enhancement with frequency domain auto-regressive modeling [34.55703785405481]
遠距離実環境における音声アプリケーションは、残響によって破損した信号を扱うことが多い。
本稿では,音声品質と自動音声認識(ASR)性能を向上させるために,音声認識の統一的枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-24T03:25:51Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - Brain Imaging-to-Graph Generation using Adversarial Hierarchical Diffusion Models for MCI Causality Analysis [44.45598796591008]
機能的磁気共鳴画像(fMRI)を軽度認知障害解析のための効果的な接続性にマッピングするために,脳画像から画像へのBIGG(Brain Imaging-to-graph generation)フレームワークを提案する。
発電機の階層変換器は、複数のスケールでノイズを推定するように設計されている。
ADNIデータセットの評価は,提案モデルの有効性と有効性を示す。
論文 参考訳(メタデータ) (2023-05-18T06:54:56Z) - On Neural Architectures for Deep Learning-based Source Separation of
Co-Channel OFDM Signals [104.11663769306566]
周波数分割多重化(OFDM)信号を含む単一チャネル音源分離問題について検討する。
我々はOFDM構造からの洞察に基づいて、ネットワークパラメータ化に対する重要なドメインインフォームド修正を提案する。
論文 参考訳(メタデータ) (2023-03-11T16:29:13Z) - Canonical Cortical Graph Neural Networks and its Application for Speech
Enhancement in Future Audio-Visual Hearing Aids [0.726437825413781]
本稿では, 層内変調を用いたマルチモーダル情報と正準相関解析(CCA)を組み合わせた, より生物学的に妥当な自己教師型機械学習手法を提案する。
この手法は、よりクリーンなオーディオ再構成とエネルギー効率の両方を考慮した最近の最先端の結果より優れており、スモーザーでスモーザーなニューロンの発火速度分布によって説明されている。
論文 参考訳(メタデータ) (2022-06-06T15:20:07Z) - A Computational Framework of Cortical Microcircuits Approximates
Sign-concordant Random Backpropagation [7.601127912271984]
本稿では,新しいマイクロ回路アーキテクチャとヘビアン学習規則の支持からなる仮説的枠組みを提案する。
我々は, 局所的な区画内でのヘビアン則を用いて, シナプス重みを更新し, 生物学的に妥当な方法で教師あり学習を実現する。
提案するフレームワークは、MNISTやCIFAR10などいくつかのデータセットでベンチマークされ、BP互換の有望な精度を示す。
論文 参考訳(メタデータ) (2022-05-15T14:22:03Z) - Mutual Information Maximization for Effective Lip Reading [99.11600901751673]
本稿では,局所的特徴レベルとグローバルなシーケンスレベルの両方について,相互情報制約を導入することを提案する。
これら2つの利点を組み合わせることで, 有効な唇読解法として, 識別性と頑健性の両方が期待できる。
論文 参考訳(メタデータ) (2020-03-13T18:47:42Z) - ADRN: Attention-based Deep Residual Network for Hyperspectral Image
Denoising [52.01041506447195]
ノイズの多いHSIからクリーンなHSIへのマッピングを学習するために,注目に基づくディープ残差ネットワークを提案する。
実験の結果,提案手法は定量的および視覚的評価において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-04T08:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。