論文の概要: Wake Word Detection with Streaming Transformers
- arxiv url: http://arxiv.org/abs/2102.04488v1
- Date: Mon, 8 Feb 2021 19:14:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 14:55:07.875383
- Title: Wake Word Detection with Streaming Transformers
- Title(参考訳): Streaming TransformerによるWake Wordの検出
- Authors: Yiming Wang, Hang Lv, Daniel Povey, Lei Xie, Sanjeev Khudanpur
- Abstract要約: 提案したトランスフォーマーモデルでは,同じ偽アラームレートで,平均25%の誤り拒否率でベースライン畳み込みネットワークを性能的に上回ることを示す。
Mobvoiのウェイクワードデータセットに関する実験により,提案したTransformerモデルはベースライン畳み込みネットワークを25%上回る性能を示した。
- 参考スコア(独自算出の注目度): 72.66551640048405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern wake word detection systems usually rely on neural networks for
acoustic modeling. Transformers has recently shown superior performance over
LSTM and convolutional networks in various sequence modeling tasks with their
better temporal modeling power. However it is not clear whether this advantage
still holds for short-range temporal modeling like wake word detection.
Besides, the vanilla Transformer is not directly applicable to the task due to
its non-streaming nature and the quadratic time and space complexity. In this
paper we explore the performance of several variants of chunk-wise streaming
Transformers tailored for wake word detection in a recently proposed LF-MMI
system, including looking-ahead to the next chunk, gradient stopping, different
positional embedding methods and adding same-layer dependency between chunks.
Our experiments on the Mobvoi wake word dataset demonstrate that our proposed
Transformer model outperforms the baseline convolution network by 25% on
average in false rejection rate at the same false alarm rate with a comparable
model size, while still maintaining linear complexity w.r.t. the sequence
length.
- Abstract(参考訳): 現代のウェイクワード検出システムは、通常、音響モデリングにニューラルネットワークに依存している。
近年,LSTMや畳み込みネットワークよりも,時間的モデリング能力が向上した様々なシーケンスモデリングタスクにおいて,トランスフォーマーの性能が向上している。
しかし、この利点が今でもウェイクワード検出のような短距離時間モデリングに有効であるかどうかは不明である。
さらに、バニラ変換器は、その非ストリーミングの性質と二次時間と空間の複雑さのために、そのタスクに直接適用できない。
本稿では,最近提案されたlf-mmiシステムにおいて,次のチャンクへのルックアヘッド,勾配停止,位置埋め込み方式の相違,チャンク間の同層依存性の追加など,ウェイクワード検出に適したチャンクワイズストリーミングトランスの性能について検討する。
Mobvoiのウェイクワードデータセットに対する実験により,提案したTransformerモデルは,線形複雑度w.r.tを維持しつつ,同じ偽アラームレートで,平均25%の誤り拒否率でベースライン畳み込みネットワークを性能的に向上することを示した。
シーケンスの長さ。
関連論文リスト
- Mamba: Linear-Time Sequence Modeling with Selective State Spaces [37.786327629797654]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z) - iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - DeMT: Deformable Mixer Transformer for Multi-Task Learning of Dense
Prediction [40.447092963041236]
変形可能なCNNとクエリベースのTransformerの利点を組み合わせた新しいMTLモデルを提案する。
提案手法は, 単純かつ効率的なエンコーダ・デコーダアーキテクチャに基づいている。
我々のモデルはGFLOPを少なくし、現在のTransformerやCNNベースの競合モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-01-09T16:00:15Z) - GC-GRU-N for Traffic Prediction using Loop Detector Data [5.735035463793008]
シアトルのループ検出器のデータを15分以上収集し、その問題を時空で再現する。
モデルは、最速の推論時間と非常に近いパフォーマンスで第2位(トランスフォーマー)。
論文 参考訳(メタデータ) (2022-11-13T06:32:28Z) - Transformer-based conditional generative adversarial network for
multivariate time series generation [0.0]
時間依存データの条件付き生成は、非常に関心のあるタスクである。
変圧器を用いた時系列生成対向ネットワーク(TTS-GAN)の最近の提案
我々は、その生成された出力を特定のエンコードされたコンテキストに条件付けすることで、TS-GANを拡張する。
この変換器をベースとしたCGANは,異なる条件下で現実的な高次元および長大なデータ列を生成することができることを示す。
論文 参考訳(メタデータ) (2022-10-05T08:29:33Z) - DT-SV: A Transformer-based Time-domain Approach for Speaker Verification [24.613926376221155]
話者検証(SV)は、話者の発話の同一性が基準音声と同一であるかどうかを判定することを目的としている。
本稿では,トランスフォーマーアーキテクチャを用いて発話レベル話者埋め込みを導出する手法を提案する。
また,学習可能なメルフバンク型エネルギー特徴抽出器である時間領域特徴抽出器についても紹介する。
論文 参考訳(メタデータ) (2022-05-26T09:36:26Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Long Range Arena: A Benchmark for Efficient Transformers [115.1654897514089]
ロングレンジアリーナベンチマーク(Long-rangearena benchmark)は、1Kドルから16Kドルまでの一連のタスクからなるスイートである。
我々は,新たに提案したベンチマークスイートを用いて,よく確立された10種類の長距離トランスフォーマーモデルを体系的に評価した。
論文 参考訳(メタデータ) (2020-11-08T15:53:56Z) - Learning to Encode Position for Transformer with Continuous Dynamical
Model [88.69870971415591]
本研究では,トランスフォーマーモデルなどの非リカレントモデルの位置情報をエンコードする新しい学習方法を提案する。
このような力学系による位置指数に沿った符号化結果の進化をモデル化する。
論文 参考訳(メタデータ) (2020-03-13T00:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。