論文の概要: Memory Controlled Sequential Self Attention for Sound Recognition
- arxiv url: http://arxiv.org/abs/2005.06650v4
- Date: Thu, 6 Aug 2020 00:32:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 13:46:50.930839
- Title: Memory Controlled Sequential Self Attention for Sound Recognition
- Title(参考訳): 音認識のための逐次的自己注意制御
- Authors: Arjun Pankajakshan, Helen L. Bear, Vinod Subramanian, Emmanouil
Benetos
- Abstract要約: 畳み込みリカレントニューラルネットワーク(CRNN)モデル上にメモリ制御された逐次自己注意機構を用いて,ポリフォニック音事象検出(SED)を提案する。
記憶制御型自己注意モデルでは,URBAN-SEDデータセットで33.92%のイベントベースFスコアが達成され,自己注意のないモデルで報告された20.10%のFスコアを上回った。
- 参考スコア(独自算出の注目度): 20.019643319467153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we investigate the importance of the extent of memory in
sequential self attention for sound recognition. We propose to use a memory
controlled sequential self attention mechanism on top of a convolutional
recurrent neural network (CRNN) model for polyphonic sound event detection
(SED). Experiments on the URBAN-SED dataset demonstrate the impact of the
extent of memory on sound recognition performance with the self attention
induced SED model. We extend the proposed idea with a multi-head self attention
mechanism where each attention head processes the audio embedding with explicit
attention width values. The proposed use of memory controlled sequential self
attention offers a way to induce relations among frames of sound event tokens.
We show that our memory controlled self attention model achieves an event based
F -score of 33.92% on the URBAN-SED dataset, outperforming the F -score of
20.10% reported by the model without self attention.
- Abstract(参考訳): 本稿では,音声認識における逐次自己注意における記憶量の重要性について検討する。
本研究では,畳み込み型リカレントニューラルネットワーク(crnn)モデル上に,記憶制御された逐次自己注意機構を多音素音響イベント検出(sed)に用いることを提案する。
URBAN-SEDデータセットの実験は、自己注意誘発SEDモデルを用いた音声認識性能に対するメモリ幅の影響を示した。
提案手法をマルチヘッド型セルフアテンション機構により拡張し,各アテンションヘッドが明瞭なアテンション幅の値でオーディオ埋め込みを処理する。
提案したメモリ制御シーケンシャル・アテンションは,音声イベントトークンのフレーム間の関係を誘導する手段を提供する。
その結果,記憶制御型自己注意モデルでは,イベントベースのf-scoreが33.92%となり,自己注意のないモデルでは20.10%のf-scoreを上回った。
関連論文リスト
- NeuroSpex: Neuro-Guided Speaker Extraction with Cross-Modal Attention [47.8479647938849]
本稿では,聴取者の脳波応答を唯一の補助的基準キューとして用いた神経誘導型話者抽出モデルであるNeuroSpexを提案する。
我々は,注目情報を捕捉する新しい脳波信号エンコーダを提案し,また,音声特徴表現を強化するためのクロスアテンション(CA)機構を提案する。
論文 参考訳(メタデータ) (2024-09-04T07:33:01Z) - Adversarially Diversified Rehearsal Memory (ADRM): Mitigating Memory Overfitting Challenge in Continual Learning [0.0]
継続的な学習は、それまでの知識を忘れずに、静止しないデータ分布を学習することに焦点を当てる。
リハーサルベースのアプローチは、破滅的な忘れに対処するために一般的に使用される。
本稿では、メモリ過度に適合する課題に対処するために、Adversarially Diversified Rehearsal Memoryを導入する。
論文 参考訳(メタデータ) (2024-05-20T06:56:43Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - A Memory Model for Question Answering from Streaming Data Supported by
Rehearsal and Anticipation of Coreference Information [19.559853775982386]
本稿では,ストリーミングデータから質問応答タスクを解くための重要な情報に入力を処理しながら,リハーサルと予測を行うメモリモデルを提案する。
我々は,bAbIデータセットと大規模テキスト(Narrative QA)およびビデオ(ActivityNet-QA)質問応答データセットを用いて,我々のモデルを検証した。
論文 参考訳(メタデータ) (2023-05-12T15:46:36Z) - Improving weakly supervised sound event detection with self-supervised
auxiliary tasks [33.427215114252235]
本稿では,音声イベント検出を主課題とする共有エンコーダアーキテクチャと,自己教師型補助課題のための追加の二次デコーダを提案する。
我々は,DCASE 2019タスク1音響シーンデータのリミックスデータセットを用いて,弱教師付き音響イベント検出のためのフレームワークを実験的に評価した。
提案したフレームワークは、既存のベンチマークモデルを22.3%、12.8%、0、10、20dB SNRの5.9%で上回っている。
論文 参考訳(メタデータ) (2021-06-12T20:28:22Z) - Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文 参考訳(メタデータ) (2021-02-28T07:52:20Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Extracting the Locus of Attention at a Cocktail Party from Single-Trial
EEG using a Joint CNN-LSTM Model [0.1529342790344802]
人間の脳は、複数の話者シナリオにおいて、特定の話者を干渉する話者から分離する際、非常によく機能する。
本稿では,聴覚の注意を喚起するために,結合畳み込みニューラルネットワーク(CNN)-長短期記憶(LSTM)モデルを提案する。
論文 参考訳(メタデータ) (2021-02-08T01:06:48Z) - Noisy Agents: Self-supervised Exploration by Predicting Auditory Events [127.82594819117753]
本稿では, エージェントが行動の因果的影響を理解することを奨励する, 強化学習(Reinforcement Learning, RL)の本質的なモチベーションを提案する。
ニューラルネットワークを用いて聴覚事象を予測し、予測誤差を本質的な報奨として利用し、RL探索を誘導する。
Atariゲームの実験結果から、我々の新しい本質的な動機は、最先端のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:59:08Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。