論文の概要: Online Continual Learning in Keyword Spotting for Low-Resource Devices
via Pooling High-Order Temporal Statistics
- arxiv url: http://arxiv.org/abs/2307.12660v1
- Date: Mon, 24 Jul 2023 10:04:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 14:41:19.620414
- Title: Online Continual Learning in Keyword Spotting for Low-Resource Devices
via Pooling High-Order Temporal Statistics
- Title(参考訳): 高次時間統計のプール化による低リソース機器のキーワードスポッティングにおけるオンライン連続学習
- Authors: Umberto Michieli, Pablo Peso Parada, Mete Ozay
- Abstract要約: キーワード スポッティング(KWS)モデルは、新しいユーザ定義の単語に、以前の単語を忘れずに迅速に適応すべきである。
我々は,凍結したバックボーンを持つKWSモデルを用いて,非反復的なサンプルストリームから新たな単語を段階的に認識する組込みオンライン連続学習(EOCL)のセットアップを検討する。
本稿では,事前学習したバックボーンから抽出した音声特徴の高次モーメントを高次に計算する高次特徴空間を構築するためのTAP(Temporal Aware Pooling)を提案する。
- 参考スコア(独自算出の注目度): 22.129910930772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Keyword Spotting (KWS) models on embedded devices should adapt fast to new
user-defined words without forgetting previous ones. Embedded devices have
limited storage and computational resources, thus, they cannot save samples or
update large models. We consider the setup of embedded online continual
learning (EOCL), where KWS models with frozen backbone are trained to
incrementally recognize new words from a non-repeated stream of samples, seen
one at a time. To this end, we propose Temporal Aware Pooling (TAP) which
constructs an enriched feature space computing high-order moments of speech
features extracted by a pre-trained backbone. Our method, TAP-SLDA, updates a
Gaussian model for each class on the enriched feature space to effectively use
audio representations. In experimental analyses, TAP-SLDA outperforms
competitors on several setups, backbones, and baselines, bringing a relative
average gain of 11.3% on the GSC dataset.
- Abstract(参考訳): 組込みデバイス上でのキーワードスポッティング(kws)モデルは、以前のものを忘れずに、新しいユーザ定義単語に素早く適応すべきである。
組み込みデバイスはストレージと計算資源が限られているため、サンプルの保存や大規模なモデルの更新はできない。
我々は,凍結したバックボーンを持つKWSモデルを用いて,反復しないサンプルストリームから新たな単語を段階的に認識する,組込みオンライン連続学習(EOCL)のセットアップを検討する。
そこで本稿では,事前学習したバックボーンから抽出した音声特徴の高次モーメントを演算する高次特徴空間を構築するための時間的アウェアプーリング(TAP)を提案する。
提案手法であるTAP-SLDAは,拡張された特徴空間上の各クラスのガウスモデルを更新し,音声表現を効果的に活用する。
実験分析では、TAP-SLDAは、いくつかのセットアップ、バックボーン、ベースラインでライバルより優れており、GSCデータセットでは相対平均11.3%上昇している。
関連論文リスト
- Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - DeCoR: Defy Knowledge Forgetting by Predicting Earlier Audio Codes [16.96483269023065]
生涯音声の特徴抽出は、新しい音のクラスを漸進的に学習する。
新しいデータにのみモデルを最適化することは、これまで学習されたタスクを壊滅的に忘れてしまう可能性がある。
本稿では,DeCoRと呼ばれる連続的な音声表現学習における新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-29T02:25:03Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Knowledge Transfer For On-Device Speech Emotion Recognition with Neural
Structured Learning [19.220263739291685]
音声感情認識(SER)は、ヒューマン・コンピュータ・インタラクション(HCI)において人気のある研究トピックである。
合成グラフ構築によるニューラル構造化学習(NSL)フレームワークを提案する。
実験の結果,音声サンプルとグラフを用いた軽量SERモデルの訓練は,小さなSERモデルを生成するだけでなく,モデル性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-10-26T18:38:42Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Federated Action Recognition on Heterogeneous Embedded Devices [16.88104153104136]
本研究では,限られた計算能力を持つクライアントが行動認識を行うことを可能にする。
我々はまず,大規模なデータセットの知識蒸留を通じて,中央サーバでモデル圧縮を行う。
より小さなデータセットに存在する限られたデータは、アクション認識モデルが複雑な時間的特徴を学習するのに十分なものではないため、微調整が必要である。
論文 参考訳(メタデータ) (2021-07-18T02:33:24Z) - Contrastive Prototype Learning with Augmented Embeddings for Few-Shot
Learning [58.2091760793799]
拡張埋め込み(CPLAE)モデルを用いた新しいコントラスト型プロトタイプ学習を提案する。
クラスプロトタイプをアンカーとして、CPLは、同じクラスのクエリサンプルを、異なるクラスのサンプルを、さらに遠くに引き出すことを目的としている。
いくつかのベンチマークによる大規模な実験により,提案したCPLAEが新たな最先端を実現することが示された。
論文 参考訳(メタデータ) (2021-01-23T13:22:44Z) - Deep Learning based Segmentation of Fish in Noisy Forward Looking MBES
Images [1.5469452301122177]
セマンティックセグメンテーションのためのディープラーニング(DL)と畳み込みニューラルネットワーク(CNN)の最近の進歩に基づいて構築する。
画像ソナーによって投影される全ての射程方位位置に対する魚・魚・魚の確率予測のためのエンドツーエンドのアプローチを実証する。
我々は,本モデルが所望のパフォーマンスを証明し,意味的文脈の重要性を活用することを学習したことを示す。
論文 参考訳(メタデータ) (2020-06-16T09:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。