論文の概要: Knowledge Transfer for Efficient On-device False Trigger Mitigation
- arxiv url: http://arxiv.org/abs/2010.10591v1
- Date: Tue, 20 Oct 2020 20:01:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 08:05:14.949944
- Title: Knowledge Transfer for Efficient On-device False Trigger Mitigation
- Title(参考訳): 効率的なオンデバイス偽トリガー緩和のための知識伝達
- Authors: Pranay Dighe, Erik Marchi, Srikanth Vishnubhotla, Sachin Kajarekar,
Devang Naik
- Abstract要約: 間接的発話は「偽のトリガー」と呼ばれ、プライバシ中心のスマートアシスタントを設計するためには、偽のトリガー緩和(FTM)が不可欠である。
LSTMに基づくFTMアーキテクチャを提案する。このアーキテクチャは,ASRの書き起こしを明示的に生成することなく,音響的特徴から直接ユーザ意図を決定する。
- 参考スコア(独自算出の注目度): 17.53768388104929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the task of determining whether a given utterance
is directed towards a voice-enabled smart-assistant device or not. An
undirected utterance is termed as a "false trigger" and false trigger
mitigation (FTM) is essential for designing a privacy-centric non-intrusive
smart assistant. The directedness of an utterance can be identified by running
automatic speech recognition (ASR) on it and determining the user intent by
analyzing the ASR transcript. But in case of a false trigger, transcribing the
audio using ASR itself is strongly undesirable. To alleviate this issue, we
propose an LSTM-based FTM architecture which determines the user intent from
acoustic features directly without explicitly generating ASR transcripts from
the audio. The proposed models are small footprint and can be run on-device
with limited computational resources. During training, the model parameters are
optimized using a knowledge transfer approach where a more accurate
self-attention graph neural network model serves as the teacher. Given the
whole audio snippets, our approach mitigates 87% of false triggers at 99% true
positive rate (TPR), and in a streaming audio scenario, the system listens to
only 1.69s of the false trigger audio before rejecting it while achieving the
same TPR.
- Abstract(参考訳): 本稿では,ある発話が音声対応スマートアシスタントデバイスに向けられているか否かを判断するタスクに対処する。
undirected utteranceは"false trigger"と呼ばれ、false trigger mitigation(ftm)はプライバシー中心の非意図的なスマートアシスタントを設計するために不可欠である。
発話の指向性は、自動音声認識(asr)を実行し、asr書き起こしを分析してユーザの意図を決定することで識別することができる。
しかし、誤ったトリガーの場合、音声をASRで書き起こすことは、強く望ましくない。
この問題を軽減するため,音声からASRの書き起こしを明示的に生成することなく,音響特徴から直接ユーザ意図を決定するLSTMベースのFTMアーキテクチャを提案する。
提案したモデルは小さなフットプリントであり、限られた計算資源でデバイス上で実行できる。
トレーニング中、モデルパラメータは、より正確な自己注意グラフニューラルネットワークモデルが教師として機能する知識伝達アプローチを用いて最適化される。
音声スニペット全体を考慮すれば,99%の真正率(TPR)で偽トリガーの87%を軽減し,ストリーミングオーディオシナリオでは,同じTPRを達成しながら拒否する前に,偽トリガーオーディオの1.69秒のみを受信する。
関連論文リスト
- Transcription-Free Fine-Tuning of Speech Separation Models for Noisy and Reverberant Multi-Speaker Automatic Speech Recognition [18.50957174600796]
重なり合う話者の自動音声認識(ASR)の解決策は、音声を分離し、分離された信号でASRを実行することである。
現在、セパレータはASR性能を劣化させるアーティファクトを生産している。
本稿では,音声信号のみを用いた共同学習のための書き起こし不要手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T08:20:58Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Improving Voice Trigger Detection with Metric Learning [15.531040328839639]
そこで本研究では,ターゲット話者からの発話を少数使用して検出精度を向上させる新しい音声トリガ検出器を提案する。
そして、登録発話の埋め込みとテスト発話との類似点として、パーソナライズされた音声トリガースコアを得る。
実験の結果,提案手法は偽拒絶率の38%を相対的に減少させることがわかった。
論文 参考訳(メタデータ) (2022-04-05T18:59:27Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Device-Directed Speech Detection: Regularization via Distillation for
Weakly-Supervised Models [13.456066434598155]
我々は、特定のウェイクワードを含まないデバイスに向けられた音声を検出する問題に対処する。
具体的には、タッチベースの呼び出しによるオーディオに焦点を当てます。
論文 参考訳(メタデータ) (2022-03-30T01:27:39Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Streaming Transformer for Hardware Efficient Voice Trigger Detection and
False Trigger Mitigation [9.691823786336716]
本稿では,2段階音声トリガ検出(vtd)とfalse trigger mitigation(ftm)タスクのための,統合的でハードウェア効率のよいアーキテクチャを提案する。
従来のFTMシステムは、デバイス上で得られる計算コストの高い音声認識格子に依存している。
本稿では,VTDタスクとFTMタスクの両方を実行するために,入ってくる音声チャンクを段階的に処理し,音声コンテキストを維持するストリーミングトランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-05-14T00:41:42Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Lattice-based Improvements for Voice Triggering Using Graph Neural
Networks [12.378732821814816]
誤ったトリガーの緩和は、プライバシー中心の非侵入型スマートアシスタントを構築する上で重要な側面である。
本稿では,グラフニューラルネットワーク(GNN)を用いた自動音声認識(ASR)格子の解析に基づく新しい手法を用いて,FTM(False trigger mitigation)の課題に対処する。
実験では,99%の真正率(TPR)で偽トリガーの87%を軽減し,FTMタスクにおいてGNNが極めて正確であることを実証した。
論文 参考訳(メタデータ) (2020-01-25T01:34:15Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。