論文の概要: Streaming Transformer for Hardware Efficient Voice Trigger Detection and
False Trigger Mitigation
- arxiv url: http://arxiv.org/abs/2105.06598v1
- Date: Fri, 14 May 2021 00:41:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 12:34:44.114673
- Title: Streaming Transformer for Hardware Efficient Voice Trigger Detection and
False Trigger Mitigation
- Title(参考訳): ハードウェア効率の良い音声トリガー検出と偽トリガー除去のためのストリーミングトランス
- Authors: Vineet Garg, Wonil Chang, Siddharth Sigtia, Saurabh Adya, Pramod
Simha, Pranay Dighe, Chandra Dhir
- Abstract要約: 本稿では,2段階音声トリガ検出(vtd)とfalse trigger mitigation(ftm)タスクのための,統合的でハードウェア効率のよいアーキテクチャを提案する。
従来のFTMシステムは、デバイス上で得られる計算コストの高い音声認識格子に依存している。
本稿では,VTDタスクとFTMタスクの両方を実行するために,入ってくる音声チャンクを段階的に処理し,音声コンテキストを維持するストリーミングトランスフォーマーアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 9.691823786336716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a unified and hardware efficient architecture for two stage voice
trigger detection (VTD) and false trigger mitigation (FTM) tasks. Two stage VTD
systems of voice assistants can get falsely activated to audio segments
acoustically similar to the trigger phrase of interest. FTM systems cancel such
activations by using post trigger audio context. Traditional FTM systems rely
on automatic speech recognition lattices which are computationally expensive to
obtain on device. We propose a streaming transformer (TF) encoder architecture,
which progressively processes incoming audio chunks and maintains audio context
to perform both VTD and FTM tasks using only acoustic features. The proposed
joint model yields an average 18% relative reduction in false reject rate (FRR)
for the VTD task at a given false alarm rate. Moreover, our model suppresses
95% of the false triggers with an additional one second of post-trigger audio.
Finally, on-device measurements show 32% reduction in runtime memory and 56%
reduction in inference time compared to non-streaming version of the model.
- Abstract(参考訳): 本稿では,2段階音声トリガ検出(VTD)と偽トリガ緩和(FTM)タスクのための統一的でハードウェアの効率的なアーキテクチャを提案する。
音声アシスタントの2段階VTDシステムは、興味の引き起こしフレーズと音響的に類似した音声セグメントに誤作動する可能性がある。
FTMシステムはポストトリガ音声コンテキストを用いてそのようなアクティベーションをキャンセルする。
従来のFTMシステムは、デバイス上で得られる計算コストの高い音声認識格子に依存している。
本稿では,音声チャンクを段階的に処理し,VTDタスクとFTMタスクの両方を音響的特徴のみで実行するストリーミングトランスフォーマー(TF)エンコーダアーキテクチャを提案する。
提案した関節モデルは,所定の誤報率でVTDタスクに対して,平均18%のfalse reject rate(FRR)を減少させる。
さらに,本モデルでは,トリガー後音声を1秒間追加することにより,誤動作の95%を抑制する。
最後に、デバイス上での測定では、実行時のメモリが32%削減され、推論時間が56%削減された。
関連論文リスト
- Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition [1.0690007351232649]
本稿では,ターゲットアクセントに関する事前知識を必要としないQifusion-Netと呼ばれる層適応核融合モデルを提案する。
実験の結果,提案手法は,複数のアクセントテストデータセットに対して,22.1$%と17.2$%の文字誤り率(CER)を相対的に低減し,ベースラインを上回った。
論文 参考訳(メタデータ) (2024-07-03T11:35:52Z) - Autoregressive Diffusion Transformer for Text-to-Speech Synthesis [39.32761051774537]
連続空間$mathbb Rd$のベクトル列として音響を符号化し、これらの列を自己回帰的に生成する。
高ビットレート連続音声表現は、ほとんど欠陥のない再構成を可能にし、我々のモデルは、ほぼ完璧な音声編集を実現できる。
論文 参考訳(メタデータ) (2024-06-08T18:57:13Z) - Multimodal Data and Resource Efficient Device-Directed Speech Detection
with Large Foundation Models [43.155061160275196]
トリガーフレーズを不要にすることで,仮想アシスタントとの対話をより自然なものにする可能性を探る。
我々の目標は、デバイスマイクが記録したストリーミングオーディオから得られる信号に基づいて、仮想アシスタントに対処するかどうかを判断することである。
本稿では,音声認識システムからの1-best仮説とデコーダ信号と,オーディオエンコーダからの音響表現を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-06T17:29:03Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。
AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文 参考訳(メタデータ) (2021-04-08T07:56:03Z) - Knowledge Transfer for Efficient On-device False Trigger Mitigation [17.53768388104929]
間接的発話は「偽のトリガー」と呼ばれ、プライバシ中心のスマートアシスタントを設計するためには、偽のトリガー緩和(FTM)が不可欠である。
LSTMに基づくFTMアーキテクチャを提案する。このアーキテクチャは,ASRの書き起こしを明示的に生成することなく,音響的特徴から直接ユーザ意図を決定する。
論文 参考訳(メタデータ) (2020-10-20T20:01:44Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - High Performance Sequence-to-Sequence Model for Streaming Speech
Recognition [19.488757267198498]
標準的な音声認識タスクにおいて、シーケンス・ツー・シーケンスのモデルが最先端のパフォーマンスを達成するようになった。
しかし、音声データの入力ストリーム上でランオン認識を行う場合、これらのモデルはいくつかの課題に直面している。
注意機構の不確実性を制御する追加の損失関数、部分的、安定な仮説を識別するビーム探索、エンコーダにおけるBLSTMの動作方法、チャンクされたBLSTMの使用を提案する。
論文 参考訳(メタデータ) (2020-03-22T23:04:32Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。