論文の概要: MLP-ASR: Sequence-length agnostic all-MLP architectures for speech
recognition
- arxiv url: http://arxiv.org/abs/2202.08456v1
- Date: Thu, 17 Feb 2022 06:06:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-18 16:35:50.400419
- Title: MLP-ASR: Sequence-length agnostic all-MLP architectures for speech
recognition
- Title(参考訳): MLP-ASR:音声認識のためのシーケンス長非依存型オールMLPアーキテクチャ
- Authors: Jin Sakuma, Tatsuya Komatsu, and Robin Scheibler
- Abstract要約: 多くの種類のデータは、例えば音響信号など、自然に変化する。
任意の長さのシーケンスで使用する畳み込み型アーキテクチャを拡張するための3つのアプローチを提案する。
最も優れた開発ベースのアーキテクチャは、WERを1.0/0に改善する。
ディベロッパー/デブ-他、テストクリーン/テスト-他のセットで0.5%、Tedlium2/テストセットで0.8/1.1%、自己アテンションベースのアーキテクチャで86.4%である。
- 参考スコア(独自算出の注目度): 26.55306523540153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose multi-layer perceptron (MLP)-based architectures suitable for
variable length input. MLP-based architectures, recently proposed for image
classification, can only be used for inputs of a fixed, pre-defined size.
However, many types of data are naturally variable in length, for example,
acoustic signals. We propose three approaches to extend MLP-based architectures
for use with sequences of arbitrary length. The first one uses a circular
convolution applied in the Fourier domain, the second applies a depthwise
convolution, and the final relies on a shift operation. We evaluate the
proposed architectures on an automatic speech recognition task with the
Librispeech and Tedlium2 corpora. The best proposed MLP-based architectures
improves WER by 1.0 / 0.9%, 0.9 / 0.5% on Librispeech dev-clean/dev-other,
test-clean/test-other set, and 0.8 / 1.1% on Tedlium2 dev/test set using 86.4%
the size of self-attention-based architecture.
- Abstract(参考訳): 可変長入力に適した多層パーセプトロン(mlp)ベースのアーキテクチャを提案する。
画像分類のために最近提案されたMLPベースのアーキテクチャは、固定サイズの入力にのみ使用できる。
しかし、例えば音響信号など、多くの種類のデータの長さは自然に変化する。
任意の長さのシーケンスで使用するために,MLPベースのアーキテクチャを拡張する3つの手法を提案する。
1つはフーリエ領域で適用される円形の畳み込み、もう1つは奥行きの畳み込みを適用し、最後はシフト演算に依存する。
提案手法をLibrispeechとTedlium2コーパスを用いて自動音声認識タスクで評価する。
提案されている最も優れたmlpベースのアーキテクチャは wer を 1.0 / 0.9%、librispeech dev-clean/dev-other で0.9 / 0.5%、test-clean/test-other セットで 0.8 / 1.1%、 tedlium2 dev/test セットで86.4%改善する。
関連論文リスト
- GraphMLP: A Graph MLP-Like Architecture for 3D Human Pose Estimation [68.65764751482774]
GraphMLPは3次元ポーズ推定のためのグローバル-ローカル-グラフィック統合アーキテクチャである。
人体のグラフ構造をモデルに組み込んで、3D人間のポーズのドメイン固有の要求を満たす。
複雑な時間力学を単純な方法でモデル化するために拡張することができ、列長の計算コストは無視できる。
論文 参考訳(メタデータ) (2022-06-13T18:59:31Z) - MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing [123.43419144051703]
ビデオ認識のための斬新な3Dアーキテクチャを提案する。
結果は、最先端の3D CNNやビデオに匹敵する。
論文 参考訳(メタデータ) (2022-06-13T16:21:33Z) - UNeXt: MLP-based Rapid Medical Image Segmentation Network [80.16644725886968]
UNetとその最新の拡張であるTransUNetは、ここ数年で主要な医療画像分割手法である。
画像分割のための畳み込み多層パーセプトロンネットワークUNeXtを提案する。
パラメータ数を72倍に減らし,計算複雑性を68倍に減らし,推論速度を10倍に改善し,セグメンテーション性能も向上した。
論文 参考訳(メタデータ) (2022-03-09T18:58:22Z) - RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality [113.1414517605892]
そこで本研究では,FC層に局所前処理を組み込む手法であるLocality Injectionを提案する。
RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに移行した最初の企業である。
論文 参考訳(メタデータ) (2021-12-21T10:28:17Z) - ConvMLP: Hierarchical Convolutional MLPs for Vision [7.874749885641495]
本稿では,視覚認識のための軽量でステージワイドな協調設計である階層型 ConMLP を提案する。
本研究では,ConvMLPをシームレスに転送し,少ないパラメータで競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2021-09-09T17:52:57Z) - Sparse-MLP: A Fully-MLP Architecture with Conditional Computation [7.901786481399378]
厳密な条件計算を伴うMoE(Mixture-of-Experts)は、注意に基づくモデルを、同等の計算コストでより多くのパラメータに拡張するための効果的なアーキテクチャであることが証明されている。
我々は、より効率的なアーキテクチャを実現するために、最近のMixerモデルをMoEで拡張するSparse-MLPを提案する。
論文 参考訳(メタデータ) (2021-09-05T06:43:08Z) - CycleMLP: A MLP-like Architecture for Dense Prediction [26.74203747156439]
CycleMLPは視覚認識と密度予測のための汎用的なバックボーンである。
様々な画像サイズに対処でき、ローカルウィンドウを使用することで、画像サイズに対する線形計算の複雑さを実現する。
CycleMLPは、モデルに対するオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションの競合するベースラインを提供することを目的としている。
論文 参考訳(メタデータ) (2021-07-21T17:23:06Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z) - RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for
Image Recognition [123.59890802196797]
画像認識のための多層パーセプトロン型ニューラルネットワーク構築ブロックであるRepMLPを提案する。
トレーニング中にRepMLP内に畳み込み層を構築し,それをFCにマージして推論を行う。
従来のCNNにRepMLPを挿入することで、ImageNetでは1.8%の精度、顔認識では2.9%、FLOPの低いCityscapeでは2.3%のmIoUを改善します。
論文 参考訳(メタデータ) (2021-05-05T06:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。