論文の概要: Query-by-Example Keyword Spotting Using Spectral-Temporal Graph Attentive Pooling and Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2409.00099v1
- Date: Tue, 27 Aug 2024 03:44:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-08 15:11:32.907836
- Title: Query-by-Example Keyword Spotting Using Spectral-Temporal Graph Attentive Pooling and Multi-Task Learning
- Title(参考訳): スペクトル時間グラフ注意ポーリングとマルチタスク学習を用いたクエリ・バイ・例キーワードスポッティング
- Authors: Zhenyu Wang, Shuyu Kong, Li Wan, Biqiao Zhang, Yiteng Huang, Mumin Jin, Ming Sun, Xin Lei, Zhaojun Yang,
- Abstract要約: 本稿では,スペクトル時間減衰グラフプーリングとマルチタスク学習を利用したQbyE (Query-by-Example) KWSシステムを提案する。
本フレームワークは,QbyE KWSタスクに対する話者不変および言語不変の埋め込みを効果的に学習することを目的としている。
- 参考スコア(独自算出の注目度): 11.182456667123835
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing keyword spotting (KWS) systems primarily rely on predefined keyword phrases. However, the ability to recognize customized keywords is crucial for tailoring interactions with intelligent devices. In this paper, we present a novel Query-by-Example (QbyE) KWS system that employs spectral-temporal graph attentive pooling and multi-task learning. This framework aims to effectively learn speaker-invariant and linguistic-informative embeddings for QbyE KWS tasks. Within this framework, we investigate three distinct network architectures for encoder modeling: LiCoNet, Conformer and ECAPA_TDNN. The experimental results on a substantial internal dataset of $629$ speakers have demonstrated the effectiveness of the proposed QbyE framework in maximizing the potential of simpler models such as LiCoNet. Particularly, LiCoNet, which is 13x more efficient, achieves comparable performance to the computationally intensive Conformer model (1.98% vs. 1.63\% FRR at 0.3 FAs/Hr).
- Abstract(参考訳): 既存のキーワードスポッティング(KWS)システムは主に定義済みのキーワードフレーズに依存している。
しかし、インテリジェントデバイスとのインタラクションをカスタマイズするためには、カスタマイズされたキーワードを認識する能力が不可欠である。
本稿では,スペクトル時間グラフ減衰プーリングとマルチタスク学習を併用した新しいQbyE(Query-by-Example)KWSシステムを提案する。
本フレームワークは,QbyE KWSタスクに対する話者不変および言語不変の埋め込みを効果的に学習することを目的としている。
本稿では,エンコーダモデリングのための3つの異なるネットワークアーキテクチャ(LiCoNet, Conformer, ECAPA_TDNN)について検討する。
629ドルの話者からなるかなりの内部データセットの実験結果は、LiCoNetのようなシンプルなモデルの可能性の最大化において、提案されたQbyEフレームワークの有効性を実証した。
特に13倍効率のLiCoNetは計算集約型コンフォーマーモデル(0.3 FAs/Hrで1.98%対1.63\% FRR)に匹敵する性能を達成している。
関連論文リスト
- A Point-Based Approach to Efficient LiDAR Multi-Task Perception [49.91741677556553]
PAttFormerは、ポイントクラウドにおける共同セマンティックセグメンテーションとオブジェクト検出のための効率的なマルチタスクアーキテクチャである。
他のLiDARベースのマルチタスクアーキテクチャとは異なり、提案したPAttFormerはタスク固有のポイントクラウド表現のために別の機能エンコーダを必要としない。
マルチタスク学習では,mIouでは+1.7%,mAPでは3Dオブジェクト検出では+1.7%,LiDARセマンティックセマンティックセグメンテーションは+1.7%向上した。
論文 参考訳(メタデータ) (2024-04-19T11:24:34Z) - Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。
我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2023-12-22T03:01:41Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - On-Device Constrained Self-Supervised Speech Representation Learning for
Keyword Spotting via Knowledge Distillation [13.08005728839078]
オンデバイスキーワードスポッティングのための知識蒸留に基づく自己教師型音声表現学習アーキテクチャを提案する。
私たちのアプローチでは、より大きく複雑なモデルからより小さくて軽量なモデルに知識を移すために、教師中心のフレームワークを使用しました。
我々は、社内データセットを用いて、Alexaキーワードスポッティング検出タスクでモデルの性能を評価した。
論文 参考訳(メタデータ) (2023-07-06T02:03:31Z) - Provable Guarantees for Nonlinear Feature Learning in Three-Layer Neural
Networks [49.808194368781095]
3層ニューラルネットワークは,2層ネットワークよりも特徴学習能力が豊富であることを示す。
この研究は、特徴学習体制における2層ネットワーク上の3層ニューラルネットワークの証明可能なメリットを理解するための前進である。
論文 参考訳(メタデータ) (2023-05-11T17:19:30Z) - On the Efficiency of Integrating Self-supervised Learning and
Meta-learning for User-defined Few-shot Keyword Spotting [51.41426141283203]
ユーザ定義キーワードスポッティングは、ユーザが定義する新しい音声用語を検出するタスクである。
これまでの研究は、自己教師付き学習モデルを取り入れたり、メタ学習アルゴリズムを適用しようとするものだった。
この結果から,HuBERTとMatching Networkを組み合わせることで,最適な結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-04-01T10:59:39Z) - Learning Decoupling Features Through Orthogonality Regularization [55.79910376189138]
音声認識におけるキースポッティング(KWS)と話者検証(SV)は2つの重要なタスクである。
我々は,同じネットワーク構造を持つ2分岐のディープネットワーク(KWSブランチとSVブランチ)を開発する。
KWS と SV のパフォーマンスを同時に向上させるために,新しいデカップリング特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:18:13Z) - EfficientTDNN: Efficient Architecture Search for Speaker Recognition in
the Wild [29.59228560095565]
認識精度を維持しつつ、推論効率を向上させるために、ニューラルネットワーク探索に基づく効率的な時間遅延ニューラルネットワーク(EfficientTDNN)を提案する。
VoxCelebデータセットの実験では、EfficientTDNNは約1013$sの巨大な検索スペースを提供し、1.66%のEERと0.156のDCF$_0.01$と565MMACを達成している。
論文 参考訳(メタデータ) (2021-03-25T03:28:07Z) - Query-by-Example Keyword Spotting system using Multi-head Attention and
Softtriple Loss [1.179778723980276]
本稿では,ユーザ定義キーワードスポッティングタスクの検索を行うニューラルネットワークアーキテクチャを提案する。
効果的な特徴抽出のために、マルチレイヤーgrgの上にマルチヘッドアテンションモジュールを付加する。
また,三重項損失とソフトマックス損失の組み合わせであるソフトトリプル損失を採用し,その効果を示す。
論文 参考訳(メタデータ) (2021-02-14T03:37:37Z) - EfficientNet-Absolute Zero for Continuous Speech Keyword Spotting [7.313613282363873]
football keyword dataset (fkd) はペルシア語の新しいキーワードスポッティングデータセットである。
このデータセットは18のクラスに約31000のサンプルを含んでいる。
efficientnet-a0とresnetモデルは、このデータセット上の他のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-12-31T16:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。