論文の概要: Wake Word Detection with Streaming Transformers
- arxiv url: http://arxiv.org/abs/2102.04488v1
- Date: Mon, 8 Feb 2021 19:14:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 14:55:07.875383
- Title: Wake Word Detection with Streaming Transformers
- Title(参考訳): Streaming TransformerによるWake Wordの検出
- Authors: Yiming Wang, Hang Lv, Daniel Povey, Lei Xie, Sanjeev Khudanpur
- Abstract要約: 提案したトランスフォーマーモデルでは,同じ偽アラームレートで,平均25%の誤り拒否率でベースライン畳み込みネットワークを性能的に上回ることを示す。
Mobvoiのウェイクワードデータセットに関する実験により,提案したTransformerモデルはベースライン畳み込みネットワークを25%上回る性能を示した。
- 参考スコア(独自算出の注目度): 72.66551640048405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern wake word detection systems usually rely on neural networks for
acoustic modeling. Transformers has recently shown superior performance over
LSTM and convolutional networks in various sequence modeling tasks with their
better temporal modeling power. However it is not clear whether this advantage
still holds for short-range temporal modeling like wake word detection.
Besides, the vanilla Transformer is not directly applicable to the task due to
its non-streaming nature and the quadratic time and space complexity. In this
paper we explore the performance of several variants of chunk-wise streaming
Transformers tailored for wake word detection in a recently proposed LF-MMI
system, including looking-ahead to the next chunk, gradient stopping, different
positional embedding methods and adding same-layer dependency between chunks.
Our experiments on the Mobvoi wake word dataset demonstrate that our proposed
Transformer model outperforms the baseline convolution network by 25% on
average in false rejection rate at the same false alarm rate with a comparable
model size, while still maintaining linear complexity w.r.t. the sequence
length.
- Abstract(参考訳): 現代のウェイクワード検出システムは、通常、音響モデリングにニューラルネットワークに依存している。
近年,LSTMや畳み込みネットワークよりも,時間的モデリング能力が向上した様々なシーケンスモデリングタスクにおいて,トランスフォーマーの性能が向上している。
しかし、この利点が今でもウェイクワード検出のような短距離時間モデリングに有効であるかどうかは不明である。
さらに、バニラ変換器は、その非ストリーミングの性質と二次時間と空間の複雑さのために、そのタスクに直接適用できない。
本稿では,最近提案されたlf-mmiシステムにおいて,次のチャンクへのルックアヘッド,勾配停止,位置埋め込み方式の相違,チャンク間の同層依存性の追加など,ウェイクワード検出に適したチャンクワイズストリーミングトランスの性能について検討する。
Mobvoiのウェイクワードデータセットに対する実験により,提案したTransformerモデルは,線形複雑度w.r.tを維持しつつ,同じ偽アラームレートで,平均25%の誤り拒否率でベースライン畳み込みネットワークを性能的に向上することを示した。
シーケンスの長さ。
関連論文リスト
- TIMBA: Time series Imputation with Bi-directional Mamba Blocks and Diffusion models [0.0]
時間指向変換器を状態空間モデル(SSM)に置き換えることを提案する。
我々は、拡張表現を実現するために、SSM、グラフニューラルネットワーク、ノード指向変換器を統合するモデルを開発する。
論文 参考訳(メタデータ) (2024-10-08T11:10:06Z) - sTransformer: A Modular Approach for Extracting Inter-Sequential and Temporal Information for Time-Series Forecasting [6.434378359932152]
既存のTransformerベースのモデルを,(1)モデル構造の変更,(2)入力データの変更の2つのタイプに分類する。
我々は、シーケンシャル情報と時間情報の両方をフルにキャプチャするSequence and Temporal Convolutional Network(STCN)を導入する$textbfsTransformer$を提案する。
我々は,線形モデルと既存予測モデルとを長期時系列予測で比較し,新たな成果を得た。
論文 参考訳(メタデータ) (2024-08-19T06:23:41Z) - TSLANet: Rethinking Transformers for Time Series Representation Learning [19.795353886621715]
時系列データは、その固有の長短の依存関係によって特徴づけられる。
本稿では,時系列タスクの普遍的畳み込みモデルとして,新しい時系列軽量ネットワーク(TSLANet)を導入する。
我々の実験では、TSLANetは分類、予測、異常検出にまたがる様々なタスクにおいて最先端のモデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-04-12T13:41:29Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z) - iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - DeMT: Deformable Mixer Transformer for Multi-Task Learning of Dense
Prediction [40.447092963041236]
変形可能なCNNとクエリベースのTransformerの利点を組み合わせた新しいMTLモデルを提案する。
提案手法は, 単純かつ効率的なエンコーダ・デコーダアーキテクチャに基づいている。
我々のモデルはGFLOPを少なくし、現在のTransformerやCNNベースの競合モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-01-09T16:00:15Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Long Range Arena: A Benchmark for Efficient Transformers [115.1654897514089]
ロングレンジアリーナベンチマーク(Long-rangearena benchmark)は、1Kドルから16Kドルまでの一連のタスクからなるスイートである。
我々は,新たに提案したベンチマークスイートを用いて,よく確立された10種類の長距離トランスフォーマーモデルを体系的に評価した。
論文 参考訳(メタデータ) (2020-11-08T15:53:56Z) - Learning to Encode Position for Transformer with Continuous Dynamical
Model [88.69870971415591]
本研究では,トランスフォーマーモデルなどの非リカレントモデルの位置情報をエンコードする新しい学習方法を提案する。
このような力学系による位置指数に沿った符号化結果の進化をモデル化する。
論文 参考訳(メタデータ) (2020-03-13T00:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。