論文の概要: Canonical Cortical Graph Neural Networks and its Application for Speech
Enhancement in Future Audio-Visual Hearing Aids
- arxiv url: http://arxiv.org/abs/2206.02671v1
- Date: Mon, 6 Jun 2022 15:20:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 19:57:57.361508
- Title: Canonical Cortical Graph Neural Networks and its Application for Speech
Enhancement in Future Audio-Visual Hearing Aids
- Title(参考訳): 標準皮質グラフニューラルネットと将来の聴覚補聴器における音声強調への応用
- Authors: Leandro A. Passos, Jo\~ao Paulo Papa, Ahsan Adeel
- Abstract要約: 本稿では, 層内変調を用いたマルチモーダル情報と正準相関解析(CCA)を組み合わせた, より生物学的に妥当な自己教師型機械学習手法を提案する。
この手法は、よりクリーンなオーディオ再構成とエネルギー効率の両方を考慮した最近の最先端の結果より優れており、スモーザーでスモーザーなニューロンの発火速度分布によって説明されている。
- 参考スコア(独自算出の注目度): 0.726437825413781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent success of machine learning algorithms, most of these
models still face several drawbacks when considering more complex tasks
requiring interaction between different sources, such as multimodal input data
and logical time sequence. On the other hand, the biological brain is highly
sharpened in this sense, empowered to automatically manage and integrate such a
stream of information through millions of years of evolution. In this context,
this paper finds inspiration from recent discoveries on cortical circuits in
the brain to propose a more biologically plausible self-supervised machine
learning approach that combines multimodal information using intra-layer
modulations together with canonical correlation analysis (CCA), as well as a
memory mechanism to keep track of temporal data, the so-called Canonical
Cortical Graph Neural networks. The approach outperformed recent
state-of-the-art results considering both better clean audio reconstruction and
energy efficiency, described by a reduced and smother neuron firing rate
distribution, suggesting the model as a suitable approach for speech
enhancement in future audio-visual hearing aid devices.
- Abstract(参考訳): 最近の機械学習アルゴリズムの成功にもかかわらず、これらのモデルの多くは、マルチモーダル入力データや論理時間シーケンスなど、異なるソース間の相互作用を必要とするより複雑なタスクを考える際に、いくつかの欠点に直面している。
一方、この意味では、生物学的脳は高度に研ぎ澄まされ、何百万年もの進化を経て、このような情報の流れを自動で管理し統合することができる。
本稿では,脳内皮質回路の最近の発見からインスピレーションを得て,階層内変調を用いたマルチモーダル情報と正準相関解析(CCA)を組み合わせ,時間的データ追跡のためのメモリ機構であるCanonical Cortical Graph Neural Networkを提案する。
提案手法は, よりクリーンな聴覚再建とエネルギー効率の向上を両立させ, ニューロンの発声速度分布を低減し, 将来の聴覚補聴器における音声強調に適したアプローチとして提案した。
関連論文リスト
- EEG-Based Speech Decoding: A Novel Approach Using Multi-Kernel Ensemble Diffusion Models [0.0]
本稿では脳波を用いた音声分類のためのアンサンブル学習フレームワークを提案する。
アンサンブルは、51、101、201のカーネルサイズを持つ3つのモデルで構成されている。
その結果,提案手法は個々のモデルや既存の最先端技術よりもはるかに優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-14T09:23:58Z) - Understanding Auditory Evoked Brain Signal via Physics-informed Embedding Network with Multi-Task Transformer [3.261870217889503]
マルチタスク変換器(PEMT-Net)を用いた物理インフォームド・エンベディング・ネットワークという,革新的なマルチタスク学習モデルを提案する。
PEMT-Netは物理インフォームド埋め込みとディープラーニング技術によりデコード性能を向上させる。
特定のデータセットに対する実験は、PEMT-Netがマルチタスクの聴覚信号復号における顕著な性能を示した。
論文 参考訳(メタデータ) (2024-06-04T06:53:32Z) - DSAM: A Deep Learning Framework for Analyzing Temporal and Spatial Dynamics in Brain Networks [4.041732967881764]
ほとんどのrs-fMRI研究は、関心のある脳領域にまたがる単一の静的機能接続行列を計算している。
これらのアプローチは、脳のダイナミクスを単純化し、目の前のゴールを適切に考慮していないリスクがある。
本稿では,時系列から直接ゴール固有の機能的接続行列を学習する,解釈可能な新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-19T23:35:06Z) - Exploring neural oscillations during speech perception via surrogate gradient spiking neural networks [59.38765771221084]
本稿では、ディープラーニングフレームワークと互換性があり、スケーラブルな、生理学的にインスパイアされた音声認識アーキテクチャを提案する。
本研究では, 終末から終末までの勾配降下訓練が, 中枢スパイク神経ネットワークにおける神経振動の出現に繋がることを示す。
本研究は, スパイク周波数適応やリカレント接続などのフィードバック機構が, 認識性能を向上させるために, 神経活動の調節と同期に重要な役割を担っていることを明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:40:07Z) - The Expressive Leaky Memory Neuron: an Efficient and Expressive Phenomenological Neuron Model Can Solve Long-Horizon Tasks [64.08042492426992]
本稿では,脳皮質ニューロンの生物学的モデルであるExpressive Memory(ELM)ニューロンモデルを紹介する。
ELMニューロンは、上記の入力-出力関係を1万以下のトレーニング可能なパラメータと正確に一致させることができる。
本稿では,Long Range Arena(LRA)データセットなど,時間構造を必要とするタスクで評価する。
論文 参考訳(メタデータ) (2023-06-14T13:34:13Z) - Single-Layer Vision Transformers for More Accurate Early Exits with Less
Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。
本手法は分類問題と回帰問題の両方に有効であることを示す。
また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-19T13:30:34Z) - Correlation based Multi-phasal models for improved imagined speech EEG
recognition [22.196642357767338]
本研究の目的は,特定の音声単位に対応する音声の動きを,話し,想像,実行しながら記録された多相脳波データに含まれる並列情報から利益を得ることである。
ニューラルネットワークを用いた二相共通表現学習モジュールは、解析フェーズと支援フェーズ間の相関をモデル化する。
提案手法は復号化時の多相データの非可利用性をさらに扱う。
論文 参考訳(メタデータ) (2020-11-04T09:39:53Z) - Reservoir Memory Machines as Neural Computers [70.5993855765376]
微分可能なニューラルネットワークは、干渉することなく明示的なメモリで人工ニューラルネットワークを拡張する。
我々は、非常に効率的に訓練できるモデルを用いて、微分可能なニューラルネットワークの計算能力を実現する。
論文 参考訳(メタデータ) (2020-09-14T12:01:30Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z) - Multi-modal Automated Speech Scoring using Attention Fusion [46.94442359735952]
本稿では,非母国英語話者の自発音声の自動評価のための,多モーダルなエンドツーエンドニューラルアプローチを提案する。
我々は、スペクトルや転写から音響的および語彙的手がかりを符号化するために、双方向のリカレント畳み込みニューラルネットワークと双方向長短期記憶ニューラルネットワークを用いる。
語彙と音響の両方への注意が組み合わさってシステム全体の性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2020-05-17T07:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。