論文の概要: Hybrid Transformer/CTC Networks for Hardware Efficient Voice Triggering
- arxiv url: http://arxiv.org/abs/2008.02323v1
- Date: Wed, 5 Aug 2020 19:16:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 19:05:23.687953
- Title: Hybrid Transformer/CTC Networks for Hardware Efficient Voice Triggering
- Title(参考訳): ハードウェア高効率音声トリガーのためのハイブリッドトランス/ctcネットワーク
- Authors: Saurabh Adya, Vineet Garg, Siddharth Sigtia, Pramod Simha, Chandra
Dhir
- Abstract要約: 本稿では,2パス音声トリガ検出システムの設計について考察する。
候補セグメントの再スコア付けに使用される第2パスのネットワークに焦点を当てる。
- 参考スコア(独自算出の注目度): 8.103294902922036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the design of two-pass voice trigger detection systems. We focus
on the networks in the second pass that are used to re-score candidate segments
obtained from the first-pass. Our baseline is an acoustic model(AM), with
BiLSTM layers, trained by minimizing the CTC loss. We replace the BiLSTM layers
with self-attention layers. Results on internal evaluation sets show that
self-attention networks yield better accuracy while requiring fewer parameters.
We add an auto-regressive decoder network on top of the self-attention layers
and jointly minimize the CTC loss on the encoder and the cross-entropy loss on
the decoder. This design yields further improvements over the baseline. We
retrain all the models above in a multi-task learning(MTL) setting, where one
branch of a shared network is trained as an AM, while the second branch
classifies the whole sequence to be true-trigger or not. Results demonstrate
that networks with self-attention layers yield $\sim$60% relative reduction in
false reject rates for a given false-alarm rate, while requiring 10% fewer
parameters. When trained in the MTL setup, self-attention networks yield
further accuracy improvements. On-device measurements show that we observe 70%
relative reduction in inference time. Additionally, the proposed network
architectures are $\sim$5X faster to train.
- Abstract(参考訳): 2パス音声トリガー検出システムの設計について検討する。
第1パスから取得した候補セグメントを再スコアリングするために使用される第2パスのネットワークに注目した。
ベースラインは音響モデル (AM) であり, CTC損失を最小限に抑えてトレーニングしたBiLSTM層である。
BiLSTMレイヤを自己注意レイヤに置き換える。
内部評価セットの結果,自己注意ネットワークの精度は向上し,パラメータは少なかった。
自己保持層上に自己回帰デコーダネットワークを追加し,エンコーダ上のCTC損失とデコーダ上のクロスエントロピー損失を両立させる。
この設計はベースラインに対してさらなる改善をもたらす。
上記のすべてのモデルをマルチタスク学習(mtl)設定で再トレーニングし、共有ネットワークの1つのブランチをamとしてトレーニングし、2番目のブランチがシーケンス全体をtrue-triggerかどうかを分類します。
その結果、自己着脱層を持つネットワークは、与えられた偽アラームレートに対する偽拒絶率の相対的に60%の低下をもたらすが、10%のパラメータは必要としない。
MTL設定で訓練すると、自己注意ネットワークはさらなる精度の向上をもたらす。
デバイス上の測定結果から,推測時間の70%の相対的な減少が観察された。
さらに、提案されたネットワークアーキテクチャはトレーニングに5倍高速である。
関連論文リスト
- Kronecker-Factored Approximate Curvature for Modern Neural Network
Architectures [85.76673783330334]
線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている
重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。
グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
論文 参考訳(メタデータ) (2023-11-01T16:37:00Z) - Sharpness-Aware Minimization Leads to Low-Rank Features [49.64754316927016]
シャープネス認識最小化(SAM)は、ニューラルネットワークのトレーニング損失を最小限に抑える手法である。
SAMはニューラルネットワークの異なる層で発生する特徴ランクを減少させる。
我々はこの効果を理論的に確認し、深層ネットワークでも起こりうることを確認する。
論文 参考訳(メタデータ) (2023-05-25T17:46:53Z) - Low PAPR MIMO-OFDM Design Based on Convolutional Autoencoder [20.544993155126967]
ピーク対平均電力比(mathsfPAPR$)削減と波形設計のための新しい枠組みを提案する。
畳み込みオートコーダ(mathsfCAE$)アーキテクチャが提示される。
1つのトレーニングされたモデルが、幅広いSNRレベルにわたって、$mathsfPAPR$の削減、スペクトル設計、および$mathsfMIMO$の検出のタスクをカバーしていることを示す。
論文 参考訳(メタデータ) (2023-01-11T11:35:10Z) - CATRO: Channel Pruning via Class-Aware Trace Ratio Optimization [61.71504948770445]
本稿では,CATRO (Class-Aware Trace Ratio Optimization) を用いた新しいチャネルプルーニング手法を提案する。
CATROは、他の最先端チャネルプルーニングアルゴリズムと同等の精度で、同様のコストまたは低コストで高い精度を達成できることを示す。
CATROは、クラス認識の特性のため、様々な分類サブタスクに適応的に効率の良いネットワークを創り出すのに適している。
論文 参考訳(メタデータ) (2021-10-21T06:26:31Z) - Tied & Reduced RNN-T Decoder [0.0]
認識性能を低下させることなく,RNN-Tデコーダ(予測ネットワーク+ジョイントネットワーク)の小型化と高速化を図る。
我々の予測ネットワークは入力埋め込みの簡単な重み付けを行い、その埋め込み行列重みを結合ネットワークの出力層と共有する。
このシンプルな設計は、追加の編集ベースの最小ベイズリスク(EMBR)トレーニングと併用することで、ワードエラー率(WER)に影響を与えることなく、RNN-Tデコーダを23Mパラメータから2Mに削減する。
論文 参考訳(メタデータ) (2021-09-15T18:19:16Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z) - Enabling certification of verification-agnostic networks via
memory-efficient semidefinite programming [97.40955121478716]
本稿では,ネットワークアクティベーションの総数にのみ線形なメモリを必要とする一階二重SDPアルゴリズムを提案する。
L-inf の精度は 1% から 88% ,6% から 40% に改善した。
また,変分オートエンコーダの復号器に対する2次安定性仕様の厳密な検証を行った。
論文 参考訳(メタデータ) (2020-10-22T12:32:29Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。