論文の概要: Voice trigger detection from LVCSR hypothesis lattices using
bidirectional lattice recurrent neural networks
- arxiv url: http://arxiv.org/abs/2003.00304v1
- Date: Sat, 29 Feb 2020 17:02:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 20:08:20.787711
- Title: Voice trigger detection from LVCSR hypothesis lattices using
bidirectional lattice recurrent neural networks
- Title(参考訳): 双方向格子リカレントニューラルネットワークを用いたLVCSR仮説格子からの発声検出
- Authors: Woojay Jeon, Leo Liu, Henry Mason
- Abstract要約: ニューラルネットワークを用いてサーバ側連続音声認識器の仮説格子を後処理することにより、音声対応パーソナルアシスタントの偽音声トリガを低減する手法を提案する。
まず、既知の手法を用いて、仮説格子からトリガーフレーズの後方確率を推定して検出し、さらに、より明示的にデータ駆動で識別的な方法で格子を処理する統計モデルについて検討する。
- 参考スコア(独自算出の注目度): 5.844015313757266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a method to reduce false voice triggers of a speech-enabled
personal assistant by post-processing the hypothesis lattice of a server-side
large-vocabulary continuous speech recognizer (LVCSR) via a neural network. We
first discuss how an estimate of the posterior probability of the trigger
phrase can be obtained from the hypothesis lattice using known techniques to
perform detection, then investigate a statistical model that processes the
lattice in a more explicitly data-driven, discriminative manner. We propose
using a Bidirectional Lattice Recurrent Neural Network (LatticeRNN) for the
task, and show that it can significantly improve detection accuracy over using
the 1-best result or the posterior.
- Abstract(参考訳): ニューラルネットワークを介してサーバ側大語彙連続音声認識器(LVCSR)の仮説格子を後処理することにより、音声対応パーソナルアシスタントの偽音声トリガを低減する手法を提案する。
まず、既知の手法を用いて、仮説格子からトリガーフレーズの後方確率を推定して検出し、さらに、より明示的にデータ駆動で識別的な方法で格子を処理する統計モデルについて検討する。
本稿では, 双方向格子リカレントニューラルネットワーク (LatticeRNN) をタスクに用いて, 検出精度を1-bestの結果や後方よりも大幅に向上できることを示す。
関連論文リスト
- HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Surrogate Gradient Spiking Neural Networks as Encoders for Large
Vocabulary Continuous Speech Recognition [91.39701446828144]
スパイクニューラルネットワークは, 代理勾配法を用いて, 通常のリカレントニューラルネットワークのように訓練可能であることを示す。
彼らは音声コマンド認識タスクについて有望な結果を示した。
繰り返し発生する非スパイキングとは対照的に、ゲートを使わずに爆発する勾配問題に対して堅牢性を示す。
論文 参考訳(メタデータ) (2022-12-01T12:36:26Z) - VQ-T: RNN Transducers using Vector-Quantized Prediction Network States [52.48566999668521]
本稿では,RNNトランスデューサの予測ネットワークにおけるベクトル量子化長短期記憶単位を提案する。
ASRネットワークと協調して離散表現を訓練することにより、格子生成のために仮説を積極的にマージすることができる。
提案するVQ RNNトランスデューサは,通常の予測ネットワークを持つトランスデューサよりもASR性能が向上することを示す。
論文 参考訳(メタデータ) (2022-08-03T02:45:52Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Improving the fusion of acoustic and text representations in RNN-T [35.43599666228086]
我々は、より表現力のある表現を生成するために、ゲーティング、バイリニアプーリング、およびそれらを結合ネットワークで組み合わせることを提案する。
提案手法の併用により, 単語誤り率を4%-5%削減できることを示す。
論文 参考訳(メタデータ) (2022-01-25T11:20:50Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - StutterNet: Stuttering Detection Using Time Delay Neural Network [9.726119468893721]
本稿では,新しい深層学習に基づく発話検出システムstutternetについて述べる。
我々は、分散発話の文脈的側面を捉えるのに適した時間遅延ニューラルネットワーク(TDNN)を用いる。
提案手法は,有望な結果を達成し,最先端の残差ニューラルネットワーク法より優れる。
論文 参考訳(メタデータ) (2021-05-12T11:36:01Z) - Scalable Polyhedral Verification of Recurrent Neural Networks [9.781772283276734]
本稿では, Prover と呼ばれる再帰型ニューラルネットワークのスケーラブルかつ高精度な検証手法を提案する。
評価の結果,Proverはコンピュータビジョン,音声,モーションセンサの分類において,いくつかの難解な再帰モデルを検証できた。
論文 参考訳(メタデータ) (2020-05-27T11:57:01Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Lattice-based Improvements for Voice Triggering Using Graph Neural
Networks [12.378732821814816]
誤ったトリガーの緩和は、プライバシー中心の非侵入型スマートアシスタントを構築する上で重要な側面である。
本稿では,グラフニューラルネットワーク(GNN)を用いた自動音声認識(ASR)格子の解析に基づく新しい手法を用いて,FTM(False trigger mitigation)の課題に対処する。
実験では,99%の真正率(TPR)で偽トリガーの87%を軽減し,FTMタスクにおいてGNNが極めて正確であることを実証した。
論文 参考訳(メタデータ) (2020-01-25T01:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。