論文の概要: Lattice-based Improvements for Voice Triggering Using Graph Neural
Networks
- arxiv url: http://arxiv.org/abs/2001.10822v1
- Date: Sat, 25 Jan 2020 01:34:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 23:59:18.469151
- Title: Lattice-based Improvements for Voice Triggering Using Graph Neural
Networks
- Title(参考訳): グラフニューラルネットワークを用いた音声トリガの格子に基づく改善
- Authors: Pranay Dighe, Saurabh Adya, Nuoyu Li, Srikanth Vishnubhotla, Devang
Naik, Adithya Sagar, Ying Ma, Stephen Pulman, Jason Williams
- Abstract要約: 誤ったトリガーの緩和は、プライバシー中心の非侵入型スマートアシスタントを構築する上で重要な側面である。
本稿では,グラフニューラルネットワーク(GNN)を用いた自動音声認識(ASR)格子の解析に基づく新しい手法を用いて,FTM(False trigger mitigation)の課題に対処する。
実験では,99%の真正率(TPR)で偽トリガーの87%を軽減し,FTMタスクにおいてGNNが極めて正確であることを実証した。
- 参考スコア(独自算出の注目度): 12.378732821814816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice-triggered smart assistants often rely on detection of a trigger-phrase
before they start listening for the user request. Mitigation of false triggers
is an important aspect of building a privacy-centric non-intrusive smart
assistant. In this paper, we address the task of false trigger mitigation (FTM)
using a novel approach based on analyzing automatic speech recognition (ASR)
lattices using graph neural networks (GNN). The proposed approach uses the fact
that decoding lattice of a falsely triggered audio exhibits uncertainties in
terms of many alternative paths and unexpected words on the lattice arcs as
compared to the lattice of a correctly triggered audio. A pure trigger-phrase
detector model doesn't fully utilize the intent of the user speech whereas by
using the complete decoding lattice of user audio, we can effectively mitigate
speech not intended for the smart assistant. We deploy two variants of GNNs in
this paper based on 1) graph convolution layers and 2) self-attention mechanism
respectively. Our experiments demonstrate that GNNs are highly accurate in FTM
task by mitigating ~87% of false triggers at 99% true positive rate (TPR).
Furthermore, the proposed models are fast to train and efficient in parameter
requirements.
- Abstract(参考訳): 音声トリガー付きスマートアシスタントは、ユーザリクエストを聴く前にトリガーフレーズの検出に依存することが多い。
誤ったトリガーの緩和は、プライバシー中心の非侵入型スマートアシスタントを構築する上で重要な側面である。
本稿では,グラフニューラルネットワーク(GNN)を用いた自動音声認識(ASR)格子の解析に基づく新しい手法を用いて,偽トリガ緩和(FTM)の課題に対処する。
提案手法は, 誤り発生音声のデコード格子は, 格子弧上の多くの代替経路や予期せぬ単語に関して, 正しく起動された音声の格子と比較して不確実性を示す。
純粋なトリガーフレーズ検出モデルは,ユーザ音声の意図を完全に活用していないが,ユーザ音声の完全復号化格子を用いることで,スマートアシスタントを意図しない音声を効果的に緩和することができる。
本論文では,2種類のGNNをデプロイする。
1)グラフ畳み込み層及び
2) セルフアテンション機構
実験では,99%の真正率(TPR)で偽トリガの87%を軽減し,FTMタスクにおいてGNNが極めて正確であることを示した。
さらに,提案モデルではパラメータ要求の学習が高速かつ効率的である。
関連論文リスト
- Imperceptible Rhythm Backdoor Attacks: Exploring Rhythm Transformation for Embedding Undetectable Vulnerabilities on Speech Recognition [4.164975438207411]
近年,音声認識システムにおいて,典型的なバックドア攻撃が研究されている。
攻撃者は、良質な音声スペクトログラムにいくつかの組み込まれた変更を加えたり、ピッチや音色などの音声成分を変更したりする。
データ中毒のステルス性を改善するために,ランダム・スペクトログラム・リズム・トランスフォーメーション (Random Spectrogram Rhythm Transformation) と呼ばれる非ニューラルかつ高速なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-16T13:29:21Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - Improving Voice Trigger Detection with Metric Learning [15.531040328839639]
そこで本研究では,ターゲット話者からの発話を少数使用して検出精度を向上させる新しい音声トリガ検出器を提案する。
そして、登録発話の埋め込みとテスト発話との類似点として、パーソナライズされた音声トリガースコアを得る。
実験の結果,提案手法は偽拒絶率の38%を相対的に減少させることがわかった。
論文 参考訳(メタデータ) (2022-04-05T18:59:27Z) - Device-Directed Speech Detection: Regularization via Distillation for
Weakly-Supervised Models [13.456066434598155]
我々は、特定のウェイクワードを含まないデバイスに向けられた音声を検出する問題に対処する。
具体的には、タッチベースの呼び出しによるオーディオに焦点を当てます。
論文 参考訳(メタデータ) (2022-03-30T01:27:39Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z) - Knowledge Transfer for Efficient On-device False Trigger Mitigation [17.53768388104929]
間接的発話は「偽のトリガー」と呼ばれ、プライバシ中心のスマートアシスタントを設計するためには、偽のトリガー緩和(FTM)が不可欠である。
LSTMに基づくFTMアーキテクチャを提案する。このアーキテクチャは,ASRの書き起こしを明示的に生成することなく,音響的特徴から直接ユーザ意図を決定する。
論文 参考訳(メタデータ) (2020-10-20T20:01:44Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Voice trigger detection from LVCSR hypothesis lattices using
bidirectional lattice recurrent neural networks [5.844015313757266]
ニューラルネットワークを用いてサーバ側連続音声認識器の仮説格子を後処理することにより、音声対応パーソナルアシスタントの偽音声トリガを低減する手法を提案する。
まず、既知の手法を用いて、仮説格子からトリガーフレーズの後方確率を推定して検出し、さらに、より明示的にデータ駆動で識別的な方法で格子を処理する統計モデルについて検討する。
論文 参考訳(メタデータ) (2020-02-29T17:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。