論文の概要: QbyE-MLPMixer: Query-by-Example Open-Vocabulary Keyword Spotting using
MLPMixer
- arxiv url: http://arxiv.org/abs/2206.13231v1
- Date: Thu, 23 Jun 2022 18:18:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 13:58:33.152891
- Title: QbyE-MLPMixer: Query-by-Example Open-Vocabulary Keyword Spotting using
MLPMixer
- Title(参考訳): QbyE-MLPMixer:MLPMixerを用いたオープン語彙キーワードスポッティング
- Authors: Jinmiao Huang, Waseem Gharbieh, Qianhui Wan, Han Suk Shim, Chul Lee
- Abstract要約: 現在のキーワードスポッティングシステムは、通常、大量の事前定義されたキーワードで訓練される。
本稿では,Mixerモデルアーキテクチャに基づく純粋語彙ニューラルネットワークを提案する。
提案モデルでは,ベースラインモデルと比較してパラメータやMACが小さい。
- 参考スコア(独自算出の注目度): 10.503972720941693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current keyword spotting systems are typically trained with a large amount of
pre-defined keywords. Recognizing keywords in an open-vocabulary setting is
essential for personalizing smart device interaction. Towards this goal, we
propose a pure MLP-based neural network that is based on MLPMixer - an MLP
model architecture that effectively replaces the attention mechanism in Vision
Transformers. We investigate different ways of adapting the MLPMixer
architecture to the QbyE open-vocabulary keyword spotting task. Comparisons
with the state-of-the-art RNN and CNN models show that our method achieves
better performance in challenging situations (10dB and 6dB environments) on
both the publicly available Hey-Snips dataset and a larger scale internal
dataset with 400 speakers. Our proposed model also has a smaller number of
parameters and MACs compared to the baseline models.
- Abstract(参考訳): 現在のキーワードスポッティングシステムは、通常、大量の事前定義されたキーワードで訓練される。
スマートデバイスインタラクションのパーソナライズには,オープン語彙設定でのキーワード認識が不可欠である。
この目的に向けて、視覚変換器の注意機構を効果的に置き換えるMLPMixer(MLPMixer)に基づく純粋なMLPベースのニューラルネットワークを提案する。
MLPMixerアーキテクチャをQbyEオープン語彙キーワードスポッティングタスクに適用する方法について検討する。
現状のRNNモデルとCNNモデルとの比較により,400人の話者によるHey-Snipsデータセットと大規模内部データセットの両方において,挑戦的な状況(10dB環境と6dB環境)において,我々の手法がより良い性能を達成することが示された。
提案モデルでは,ベースラインモデルと比較してパラメータやMACも少ない。
関連論文リスト
- Hierarchical Associative Memory, Parallelized MLP-Mixer, and Symmetry Breaking [6.9366619419210656]
トランスフォーマーは、自然言語処理における主要なニューラルネットワークモデルとして、自らを確立している。
最近の研究は、MetaFormersで説明されているようなアテンションモジュールを他のメカニズムに置き換えることを検討している。
本稿では,Krotovの階層型連想メモリとMetaFormersを統合し,Transformerブロックの包括的表現を可能にする。
論文 参考訳(メタデータ) (2024-06-18T02:42:19Z) - TSMixer: Lightweight MLP-Mixer Model for Multivariate Time Series
Forecasting [13.410217680999459]
トランスフォーマーは、時系列の相互作用をキャプチャする能力のために時系列予測で人気を博している。
高メモリとコンピューティングの要求は、長期予測にとって重要なボトルネックとなる。
マルチ層パーセプトロン(MLP)モジュールからなる軽量ニューラルネットワークTSMixerを提案する。
論文 参考訳(メタデータ) (2023-06-14T06:26:23Z) - iMixer: hierarchical Hopfield network implies an invertible, implicit and iterative MLP-Mixer [2.5782420501870296]
ホップフィールドネットワークとトランスフォーマーのようなアーキテクチャの研究をiMixerに一般化する。
iMixerは、出力側から入力側へ前進する一般化である。
画像分類タスクにおいて,様々なデータセットを用いてモデル性能を評価する。
この結果は、ホップフィールドネットワークとミキサーモデルとの対応が、トランスフォーマーのようなアーキテクチャ設計のより広範なクラスを理解するための原則であることを示している。
論文 参考訳(メタデータ) (2023-04-25T18:00:08Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - ActiveMLP: An MLP-like Architecture with Active Token Mixer [54.95923719553343]
本稿では,コンピュータビジョンのための一般的なバックボーンであるActiveMLPを提案する。
我々は、グローバルな範囲の他のトークンからのコンテキスト情報を与えられたトークンに積極的に組み込む、Active Token Mixer (ATM)と呼ばれる革新的なトークンミキサーを提案する。
このように、トークンミキシングの空間範囲を拡大し、トークンミキシングの方法を変更する。
論文 参考訳(メタデータ) (2022-03-11T17:29:54Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z) - Rethinking Token-Mixing MLP for MLP-based Vision Backbone [34.47616917228978]
本稿では,Circulant Channel-Specific(CCS)トークン混合ベンチマークと呼ばれる,空間不変かつチャネル固有な改良された構造を提案する。
パラメータは少ないが、ImageNet1Kでは高い分類精度が得られる。
論文 参考訳(メタデータ) (2021-06-28T17:59:57Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。