論文の概要: Canonical Cortical Graph Neural Networks and its Application for Speech
Enhancement in Future Audio-Visual Hearing Aids
- arxiv url: http://arxiv.org/abs/2206.02671v1
- Date: Mon, 6 Jun 2022 15:20:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 19:57:57.361508
- Title: Canonical Cortical Graph Neural Networks and its Application for Speech
Enhancement in Future Audio-Visual Hearing Aids
- Title(参考訳): 標準皮質グラフニューラルネットと将来の聴覚補聴器における音声強調への応用
- Authors: Leandro A. Passos, Jo\~ao Paulo Papa, Ahsan Adeel
- Abstract要約: 本稿では, 層内変調を用いたマルチモーダル情報と正準相関解析(CCA)を組み合わせた, より生物学的に妥当な自己教師型機械学習手法を提案する。
この手法は、よりクリーンなオーディオ再構成とエネルギー効率の両方を考慮した最近の最先端の結果より優れており、スモーザーでスモーザーなニューロンの発火速度分布によって説明されている。
- 参考スコア(独自算出の注目度): 0.726437825413781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent success of machine learning algorithms, most of these
models still face several drawbacks when considering more complex tasks
requiring interaction between different sources, such as multimodal input data
and logical time sequence. On the other hand, the biological brain is highly
sharpened in this sense, empowered to automatically manage and integrate such a
stream of information through millions of years of evolution. In this context,
this paper finds inspiration from recent discoveries on cortical circuits in
the brain to propose a more biologically plausible self-supervised machine
learning approach that combines multimodal information using intra-layer
modulations together with canonical correlation analysis (CCA), as well as a
memory mechanism to keep track of temporal data, the so-called Canonical
Cortical Graph Neural networks. The approach outperformed recent
state-of-the-art results considering both better clean audio reconstruction and
energy efficiency, described by a reduced and smother neuron firing rate
distribution, suggesting the model as a suitable approach for speech
enhancement in future audio-visual hearing aid devices.
- Abstract(参考訳): 最近の機械学習アルゴリズムの成功にもかかわらず、これらのモデルの多くは、マルチモーダル入力データや論理時間シーケンスなど、異なるソース間の相互作用を必要とするより複雑なタスクを考える際に、いくつかの欠点に直面している。
一方、この意味では、生物学的脳は高度に研ぎ澄まされ、何百万年もの進化を経て、このような情報の流れを自動で管理し統合することができる。
本稿では,脳内皮質回路の最近の発見からインスピレーションを得て,階層内変調を用いたマルチモーダル情報と正準相関解析(CCA)を組み合わせ,時間的データ追跡のためのメモリ機構であるCanonical Cortical Graph Neural Networkを提案する。
提案手法は, よりクリーンな聴覚再建とエネルギー効率の向上を両立させ, ニューロンの発声速度分布を低減し, 将来の聴覚補聴器における音声強調に適したアプローチとして提案した。
関連論文リスト
- Sparse Coding in a Dual Memory System for Lifelong Learning [13.041607703862724]
Brainは、重複しないスパースコードの情報を効率的にエンコードする。
我々はマルチメモリ再生機構においてスパース符号化を用いる。
本手法は,作業モデルのシナプス重みに符号化された情報を集約し,集約する,長期的セマンティックメモリを新たに維持する。
論文 参考訳(メタデータ) (2022-12-28T12:56:15Z) - Multimodal Speech Enhancement Using Burst Propagation [2.03742455046876]
本稿では,音声・視覚的音声強調のための新しいマルチモーダルソリューションMBURSTを提案する。
より生物学的に妥当な方法で、信用割当問題に対処するためのいくつかの基準を実装している。
Grid Corpus と CHiME3 ベースのデータセットを用いて行った実験では、MBURST が類似したマスク再構成をマルチモーダルバックプロパゲーションベースのベースラインに再現できることが示されている。
論文 参考訳(メタデータ) (2022-09-07T16:27:34Z) - A Multimodal Canonical-Correlated Graph Neural Network for
Energy-Efficient Speech Enhancement [4.395837214164745]
本稿では,エネルギー効率の高いAV音声強調のための新しいマルチモーダル自己教師型アーキテクチャを提案する。
グラフニューラルネットワークと標準相関解析(CCA-GNN)を統合する
ベンチマークのChiME3データセットを用いて行った実験により、提案したフレームベースのAV CCA-GNNは、時間的文脈におけるより良い特徴学習を強化していることがわかった。
論文 参考訳(メタデータ) (2022-02-09T15:47:07Z) - Deep Metric Learning with Locality Sensitive Angular Loss for
Self-Correcting Source Separation of Neural Spiking Signals [77.34726150561087]
本稿では, 深層学習に基づく手法を提案し, 自動掃除とロバスト分離フィルタの必要性に対処する。
本手法は, ソース分離した高密度表面筋電図記録に基づいて, 人工的に劣化したラベルセットを用いて検証する。
このアプローチにより、ニューラルネットワークは、信号のラベル付けの不完全な方法を使用して、神経生理学的時系列を正確に復号することができる。
論文 参考訳(メタデータ) (2021-10-13T21:51:56Z) - Single-Layer Vision Transformers for More Accurate Early Exits with Less
Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。
本手法は分類問題と回帰問題の両方に有効であることを示す。
また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-19T13:30:34Z) - Correlation based Multi-phasal models for improved imagined speech EEG
recognition [22.196642357767338]
本研究の目的は,特定の音声単位に対応する音声の動きを,話し,想像,実行しながら記録された多相脳波データに含まれる並列情報から利益を得ることである。
ニューラルネットワークを用いた二相共通表現学習モジュールは、解析フェーズと支援フェーズ間の相関をモデル化する。
提案手法は復号化時の多相データの非可利用性をさらに扱う。
論文 参考訳(メタデータ) (2020-11-04T09:39:53Z) - Reservoir Memory Machines as Neural Computers [70.5993855765376]
微分可能なニューラルネットワークは、干渉することなく明示的なメモリで人工ニューラルネットワークを拡張する。
我々は、非常に効率的に訓練できるモデルを用いて、微分可能なニューラルネットワークの計算能力を実現する。
論文 参考訳(メタデータ) (2020-09-14T12:01:30Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z) - Multi-modal Automated Speech Scoring using Attention Fusion [46.94442359735952]
本稿では,非母国英語話者の自発音声の自動評価のための,多モーダルなエンドツーエンドニューラルアプローチを提案する。
我々は、スペクトルや転写から音響的および語彙的手がかりを符号化するために、双方向のリカレント畳み込みニューラルネットワークと双方向長短期記憶ニューラルネットワークを用いる。
語彙と音響の両方への注意が組み合わさってシステム全体の性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2020-05-17T07:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。