論文の概要: Improving vision-inspired keyword spotting using dynamic module skipping
in streaming conformer encoder
- arxiv url: http://arxiv.org/abs/2309.00140v1
- Date: Thu, 31 Aug 2023 21:25:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 15:10:29.746544
- Title: Improving vision-inspired keyword spotting using dynamic module skipping
in streaming conformer encoder
- Title(参考訳): ストリーミングコンフォーマエンコーダにおける動的モジュールスキップを用いた視覚インスパイアされたキーワードスポッティングの改善
- Authors: Alexandre Bittar, Paul Dixon, Mohammad Samragh, Kumari Nishu, Devang
Naik
- Abstract要約: 本稿では,ストリーミングオーディオを処理可能な入力依存型動的深度アーキテクチャを提案する。
具体的には、トレーニング可能なバイナリゲートを備えたコンバータエンコーダを拡張し、入力オーディオに従ってネットワークモジュールを動的にスキップできるようにする。
- 参考スコア(独自算出の注目度): 47.1504323202954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using a vision-inspired keyword spotting framework, we propose an
architecture with input-dependent dynamic depth capable of processing streaming
audio. Specifically, we extend a conformer encoder with trainable binary gates
that allow us to dynamically skip network modules according to the input audio.
Our approach improves detection and localization accuracy on continuous speech
using Librispeech top-1000 most frequent words while maintaining a small memory
footprint. The inclusion of gates also reduces the average amount of processing
without affecting the overall performance. These benefits are shown to be even
more pronounced using the Google speech commands dataset placed over background
noise where up to 97% of the processing is skipped on non-speech inputs,
therefore making our method particularly interesting for an always-on keyword
spotter.
- Abstract(参考訳): 視覚に触発されたキーワードスポッティングフレームワークを用いて,ストリーミングオーディオを処理可能な入力依存動的深度アーキテクチャを提案する。
具体的には、入力オーディオに応じてネットワークモジュールを動的にスキップできる、トレーニング可能なバイナリゲートを備えたコンフォーメータエンコーダを拡張します。
提案手法は,メモリフットプリントを小さく保ちつつ,Librispeech Top-1000を用いた連続音声の検出と位置決め精度を向上させる。
ゲートを組み込むことで、全体的なパフォーマンスに影響を与えることなく、処理の平均量を削減できる。
これらの利点は、非音声入力で最大97%の処理がスキップされるバックグラウンドノイズの上に置かれるgoogle speech commandデータセットでさらに顕著であることを示し、この手法を常時オンのキーワードスポッターにとって特に興味深いものにしている。
関連論文リスト
- CrisperWhisper: Accurate Timestamps on Verbatim Speech Transcriptions [0.5120567378386615]
より冗長な音声の書き起こしを生成するために、モデルを微調整する。
複数の話者に対する頑健さと背景雑音を高めるために,我々はいくつかの手法を採用している。
論文 参考訳(メタデータ) (2024-08-29T14:52:42Z) - OpenSR: Open-Modality Speech Recognition via Maintaining Multi-Modality
Alignment [57.15449072423539]
オープンモダリティ音声認識(textbfOpenSR)の学習システムを提案する。
OpenSRは、3つの異なる設定で1から1へのモダリティ転送を可能にする。
既存の数ショットとフルショットのリップリード方式と比較して、非常に競争力のあるゼロショット性能を実現している。
論文 参考訳(メタデータ) (2023-06-10T11:04:10Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。
提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文 参考訳(メタデータ) (2022-11-15T18:44:28Z) - DepthFormer: Multimodal Positional Encodings and Cross-Input Attention
for Transformer-Based Segmentation Networks [13.858051019755283]
セグメンテーションタスクで最先端のパフォーマンスを達成したトランスフォーマーベースのディープラーニングアーキテクチャに焦点をあてる。
位置エンコーディングに埋め込んで深度情報を活用することを提案する。
私たちのアプローチは、Cityscapesベンチマークのパフォーマンスを継続的に改善します。
論文 参考訳(メタデータ) (2022-11-08T12:01:31Z) - Masking Modalities for Cross-modal Video Retrieval [93.10669981708878]
ビデオエンコーダを事前訓練するための一般的な戦略は、付随する音声を弱い監督力として使用することである。
ビデオエンコーダの事前学習には,映像のモダリティ,すなわち外見,音,書き起こされた音声の監督が用いられる。
How2R, YouCook2, Condensed Moviesデータセット上で, ビデオ検索のための"モダリティマスキング"事前学習手法の優れた性能を示す。
論文 参考訳(メタデータ) (2021-11-01T23:55:04Z) - Audiomer: A Convolutional Transformer for Keyword Spotting [0.0]
本稿では,1D Residual NetworksとPerformer Attentionを組み合わせることで,キーワードスポッティングにおける最先端のパフォーマンスを実現するAudiomerを紹介する。
Audiomerは、計算制約のあるデバイスへのデプロイと、より小さなデータセットでのトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-09-21T15:28:41Z) - Voice Activity Detection for Transient Noisy Environment Based on
Diffusion Nets [13.558688470594674]
過渡音と定常音の音響環境における音声活動検出について検討する。
音声フレームと非音声音声フレームの空間パターンを独立に学習し,その基礎となる幾何学的構造を学習する。
ディープニューラルネットワークは、音声フレームと非音声フレームを分離するように訓練される。
論文 参考訳(メタデータ) (2021-06-25T17:05:26Z) - Streaming Attention-Based Models with Augmented Memory for End-to-End
Speech Recognition [26.530909772863417]
コンボリューションを付加したアテンションベースのモジュールを用いた,エンドツーエンドのニューラルトランスデューサアーキテクチャ上に,コンパクトでストリーミングな音声認識システムを構築した。
提案システムは,ストリーミング機能を備えたエンドツーエンドモデルと,拡張メモリを用いたストリーミングアテンションベースモデルからのフットプリントを大幅に削減する。
LibriSpeechデータセットでは,テストクリーンで2.7%,他で5.8%の単語誤り率を実現している。
論文 参考訳(メタデータ) (2020-11-03T00:43:58Z) - TinySpeech: Attention Condensers for Deep Speech Recognition Neural
Networks on Edge Devices [71.68436132514542]
エッジ上でのオンデバイス音声認識のための低フットプリント,高効率深層ニューラルネットワーク構築のためのアテンションコンデンサの概念を紹介する。
その有効性を説明するために,デバイス上での音声認識に適した低精度深層ニューラルネットワークTinySpeechを導入する。
論文 参考訳(メタデータ) (2020-08-10T16:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。