論文の概要: Progressive Voice Trigger Detection: Accuracy vs Latency
- arxiv url: http://arxiv.org/abs/2010.15446v2
- Date: Tue, 2 Mar 2021 15:16:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 00:04:50.031334
- Title: Progressive Voice Trigger Detection: Accuracy vs Latency
- Title(参考訳): プログレッシブ音声トリガー検出:精度とレイテンシ
- Authors: Siddharth Sigtia, John Bridle, Hywel Richards, Pascal Clark, Erik
Marchi, Vineet Garg
- Abstract要約: 仮想アシスタントのための音声トリガー検出アーキテクチャを提案する。
まず、検出されたトリガーフレーズの後に、より多くのオーディオコンテキストを含めることで、より正確な判断が得られます。
検出された真のトリガのわずか3%で決定を遅らせることで、偽拒絶率の66%の相対的な改善が得られることを示す。
- 参考スコア(独自算出の注目度): 14.090574596529597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an architecture for voice trigger detection for virtual
assistants. The main idea in this work is to exploit information in words that
immediately follow the trigger phrase. We first demonstrate that by including
more audio context after a detected trigger phrase, we can indeed get a more
accurate decision. However, waiting to listen to more audio each time incurs a
latency increase. Progressive Voice Trigger Detection allows us to trade-off
latency and accuracy by accepting clear trigger candidates quickly, but waiting
for more context to decide whether to accept more marginal examples. Using a
two-stage architecture, we show that by delaying the decision for just 3% of
detected true triggers in the test set, we are able to obtain a relative
improvement of 66% in false rejection rate, while incurring only a negligible
increase in latency.
- Abstract(参考訳): 仮想アシスタントのための音声トリガー検出アーキテクチャを提案する。
この作業の主なアイデアは、トリガーフレーズをすぐに追従する言葉で情報を活用することである。
まず、検出されたトリガーフレーズの後に、より多くのオーディオコンテキストを含めることで、より正確な判断が得られます。
しかし、毎回より多くのオーディオを聞くのを待つと、レイテンシが増加する。
プログレッシブ音声トリガー検出により、明確なトリガー候補を迅速に受け入れることで、レイテンシと精度のトレードオフが可能になります。
2段階のアーキテクチャを用いて,検出された真のトリガの3%のみを遅延させることで,遅延の無視可能な増加のみを伴いながら,偽拒絶率の66%の相対的改善が得られることを示した。
関連論文リスト
- Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles [48.208214762257136]
オーディオストリームのリアルタイム処理のための軽量オンデバイスモデルと、サーバ側の検証モデルである。
プライバシーを保護するため、オーディオ機能は生のオーディオではなくクラウドに送られる。
論文 参考訳(メタデータ) (2023-10-17T16:22:18Z) - STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。
これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。
本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-12T10:50:21Z) - DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion [137.8749239614528]
そこで我々は,時間的行動検出(TAD)の新しい定式化を提案し,拡散を抑えるDiffTADを提案する。
入力されたランダムな時間的提案を考慮すれば、トリミングされていない長いビデオが与えられたアクションの提案を正確に得ることができる。
論文 参考訳(メタデータ) (2023-03-27T00:40:52Z) - Improving Voice Trigger Detection with Metric Learning [15.531040328839639]
そこで本研究では,ターゲット話者からの発話を少数使用して検出精度を向上させる新しい音声トリガ検出器を提案する。
そして、登録発話の埋め込みとテスト発話との類似点として、パーソナライズされた音声トリガースコアを得る。
実験の結果,提案手法は偽拒絶率の38%を相対的に減少させることがわかった。
論文 参考訳(メタデータ) (2022-04-05T18:59:27Z) - Streaming Transformer for Hardware Efficient Voice Trigger Detection and
False Trigger Mitigation [9.691823786336716]
本稿では,2段階音声トリガ検出(vtd)とfalse trigger mitigation(ftm)タスクのための,統合的でハードウェア効率のよいアーキテクチャを提案する。
従来のFTMシステムは、デバイス上で得られる計算コストの高い音声認識格子に依存している。
本稿では,VTDタスクとFTMタスクの両方を実行するために,入ってくる音声チャンクを段階的に処理し,音声コンテキストを維持するストリーミングトランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-05-14T00:41:42Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z) - Knowledge Transfer for Efficient On-device False Trigger Mitigation [17.53768388104929]
間接的発話は「偽のトリガー」と呼ばれ、プライバシ中心のスマートアシスタントを設計するためには、偽のトリガー緩和(FTM)が不可欠である。
LSTMに基づくFTMアーキテクチャを提案する。このアーキテクチャは,ASRの書き起こしを明示的に生成することなく,音響的特徴から直接ユーザ意図を決定する。
論文 参考訳(メタデータ) (2020-10-20T20:01:44Z) - Towards Streaming Perception [70.68520310095155]
本稿では、リアルタイムオンライン知覚のための単一のメトリクスにレイテンシと精度を協調的に統合するアプローチを提案する。
この指標の背後にある重要な洞察は、瞬間ごとに認識スタック全体の出力を共同で評価することである。
本稿では,都市ビデオストリームにおけるオブジェクト検出とインスタンスセグメンテーションの具体的タスクに注目し,高品質で時間依存的なアノテーションを備えた新しいデータセットを寄贈する。
論文 参考訳(メタデータ) (2020-05-21T01:51:35Z) - Low Latency ASR for Simultaneous Speech Translation [27.213294097841853]
我々は,音声認識と音声翻訳モジュールの両コンポーネントのレイテンシを低減するために,いくつかの手法を開発した。
ストリーム復号と動的出力更新のためのプロトコルを用いて,ランオン復号とストリーム復号時の安定部分仮説を同定する手法を組み合わせた。
この組み合わせは単語レベルでの遅延を減らし、単語は最終であり、将来は18.1sから1.1sまで性能を犠牲にすることなく更新されることはない。
論文 参考訳(メタデータ) (2020-03-22T13:37:05Z) - Lattice-based Improvements for Voice Triggering Using Graph Neural
Networks [12.378732821814816]
誤ったトリガーの緩和は、プライバシー中心の非侵入型スマートアシスタントを構築する上で重要な側面である。
本稿では,グラフニューラルネットワーク(GNN)を用いた自動音声認識(ASR)格子の解析に基づく新しい手法を用いて,FTM(False trigger mitigation)の課題に対処する。
実験では,99%の真正率(TPR)で偽トリガーの87%を軽減し,FTMタスクにおいてGNNが極めて正確であることを実証した。
論文 参考訳(メタデータ) (2020-01-25T01:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。