論文の概要: Multitaper mel-spectrograms for keyword spotting
- arxiv url: http://arxiv.org/abs/2407.04662v1
- Date: Fri, 5 Jul 2024 17:18:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 12:41:40.778021
- Title: Multitaper mel-spectrograms for keyword spotting
- Title(参考訳): キーワードスポッティングのためのマルチタッパーメル・スペクトログラム
- Authors: Douglas Baptista de Souza, Khaled Jamal Bakri, Fernanda Ferreira, Juliana Inacio,
- Abstract要約: そこで本研究では,KWSの改良機能を実現するために,マルチタッパー技術を用いた手法について検討する。
提案した改良機能を使用することの利点を実験により確認した。
- 参考スコア(独自算出の注目度): 42.82842124247846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Keyword spotting (KWS) is one of the speech recognition tasks most sensitive to the quality of the feature representation. However, the research on KWS has traditionally focused on new model topologies, putting little emphasis on other aspects like feature extraction. This paper investigates the use of the multitaper technique to create improved features for KWS. The experimental study is carried out for different test scenarios, windows and parameters, datasets, and neural networks commonly used in embedded KWS applications. Experiment results confirm the advantages of using the proposed improved features.
- Abstract(参考訳): キーワードスポッティング(KWS)は特徴表現の品質に最も敏感な音声認識タスクの一つである。
しかしながら、KWSの研究は伝統的に新しいモデルトポロジに焦点を当てており、機能抽出のような他の側面にはほとんど重点を置いていない。
そこで本研究では,KWSの改良機能を実現するために,マルチタッパー技術を用いた手法について検討する。
この実験は、さまざまなテストシナリオ、ウィンドウとパラメータ、データセット、組み込みKWSアプリケーションで一般的に使用されるニューラルネットワークに対して実施されている。
提案した改良機能を使用することの利点を実験により確認した。
関連論文リスト
- Disentangled Training with Adversarial Examples For Robust Small-footprint Keyword Spotting [18.456711824241978]
KWSのロバスト性を改善するために,逆例を用いたデータソース対応不整合学習を提案する。
実験結果から,提案手法は偽拒絶率を40.31%,偽受け入れ率1%で改善することが示された。
我々の最高のパフォーマンスシステムは、Google Speech Commands V1データセットで9,8.06%の精度を達成する。
論文 参考訳(メタデータ) (2024-08-23T20:03:51Z) - Noise-Resilient Unsupervised Graph Representation Learning via Multi-Hop Feature Quality Estimation [53.91958614666386]
グラフニューラルネットワーク(GNN)に基づく教師なしグラフ表現学習(UGRL)
マルチホップ特徴量推定(MQE)に基づく新しいUGRL法を提案する。
論文 参考訳(メタデータ) (2024-07-29T12:24:28Z) - Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文 参考訳(メタデータ) (2023-10-08T07:42:41Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Learning Decoupling Features Through Orthogonality Regularization [55.79910376189138]
音声認識におけるキースポッティング(KWS)と話者検証(SV)は2つの重要なタスクである。
我々は,同じネットワーク構造を持つ2分岐のディープネットワーク(KWSブランチとSVブランチ)を開発する。
KWS と SV のパフォーマンスを同時に向上させるために,新しいデカップリング特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:18:13Z) - Machine Learning and Deep Learning for Fixed-Text Keystroke Dynamics [6.626171743551614]
キーストロークダイナミクスは、キーボード入力の様々な側面を測定することで、ユーザーがタイプする方法を分析するために使用することができる。
固定テキストキーストロークに基づく多種多様な機械学習およびディープラーニング技術について検討する。
論文 参考訳(メタデータ) (2021-07-01T14:54:29Z) - Exploring Filterbank Learning for Keyword Spotting [27.319236923928205]
本稿ではキーワードスポッティングのためのフィルタバンク学習について検討する。
パワースペクトル領域におけるフィルタバンク行列学習と、精神音響的に動機付けられたガンマチャープフィルタバンクのパラメータ学習の2つの手法について検討した。
実験結果から,学習したフィルタバンクと手作り音声の特徴との間には,KWSの精度において統計的に有意な差はないことが明らかとなった。
論文 参考訳(メタデータ) (2020-05-30T08:11:58Z) - Towards High Performance Human Keypoint Detection [87.1034745775229]
文脈情報は人体構成や見えないキーポイントを推論する上で重要な役割を担っている。
そこで我々は,空間とチャネルのコンテキスト情報を効率的に統合するカスケードコンテキストミキサー(CCM)を提案する。
CCMの表現能力を最大化するために、我々は、強陰性な人検出マイニング戦略と共同訓練戦略を開発する。
検出精度を向上させるために,キーポイント予測を後処理するためのいくつかのサブピクセル改良手法を提案する。
論文 参考訳(メタデータ) (2020-02-03T02:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。