論文の概要: Rainbow Keywords: Efficient Incremental Learning for Online Spoken
Keyword Spotting
- arxiv url: http://arxiv.org/abs/2203.16361v1
- Date: Wed, 30 Mar 2022 14:39:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 16:32:01.804228
- Title: Rainbow Keywords: Efficient Incremental Learning for Online Spoken
Keyword Spotting
- Title(参考訳): Rainbow Keywords: オンライン音声キーワードスポッティングのための効果的なインクリメンタル学習
- Authors: Yang Xiao and Nana Hou and Eng Siong Chng
- Abstract要約: そこで我々はRainbow Keywords (RK) という新しい多様性を考慮した漸進学習手法を提案する。
その結果、RKアプローチは、事前の知識を忘れずに、段階的に新しいタスクを学習することができる。
実験結果から,提案手法は,必要メモリの少ないGoogle Speech Commandデータセットのベースラインの平均精度を4.2%向上することがわかった。
- 参考スコア(独自算出の注目度): 29.65294592309984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Catastrophic forgetting is a thorny challenge when updating keyword spotting
(KWS) models after deployment. This problem will be more challenging if KWS
models are further required for edge devices due to their limited memory. To
alleviate such an issue, we propose a novel diversity-aware incremental
learning method named Rainbow Keywords (RK). Specifically, the proposed RK
approach introduces a diversity-aware sampler to select a diverse set from
historical and incoming keywords by calculating classification uncertainty. As
a result, the RK approach can incrementally learn new tasks without forgetting
prior knowledge. Besides, the RK approach also proposes data augmentation and
knowledge distillation loss function for efficient memory management on the
edge device. Experimental results show that the proposed RK approach achieves
4.2% absolute improvement in terms of average accuracy over the best baseline
on Google Speech Command dataset with less required memory. The scripts are
available on GitHub.
- Abstract(参考訳): 破滅的な忘れは、デプロイ後にキーワードスポッティング(KWS)モデルを更新する際の厄介な課題である。
この問題は、kwsモデルがメモリに制限があるため、エッジデバイスにさらに必要となる場合、より困難になる。
このような問題を緩和するために,Rainbow Keywords (RK) という新しい多様性を考慮した漸進学習手法を提案する。
特に,提案手法では,分類の不確かさを計算し,歴史的キーワードや入ってくるキーワードから多様な集合を選択できる多様性を意識したサンプラーを導入する。
その結果、rkアプローチは、事前の知識を忘れずに、段階的に新しいタスクを学習できる。
さらにRKアプローチでは,エッジデバイス上での効率的なメモリ管理のためのデータ拡張と知識蒸留損失関数も提案している。
実験の結果,提案手法は,必要メモリの少ないgoogle speech commandデータセットにおける最良ベースラインに対して,平均精度で4.2%の絶対改善を達成した。
スクリプトはgithubから入手できる。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Contrastive Augmentation: An Unsupervised Learning Approach for Keyword Spotting in Speech Technology [4.080686348274667]
教師なしコントラスト学習と拡張一意的手法を組み合わせた新しい手法を提案する。
我々の方法では、ニューラルネットワークがラベルのないデータセットでトレーニングすることができ、下流タスクのパフォーマンスが向上する可能性がある。
本稿では,ボトルネック層の特徴と音声再構成情報との類似性を利用した音声強化に基づく教師なし学習手法を提案する。
論文 参考訳(メタデータ) (2024-08-31T05:40:37Z) - Disentangled Training with Adversarial Examples For Robust Small-footprint Keyword Spotting [18.456711824241978]
KWSのロバスト性を改善するために,逆例を用いたデータソース対応不整合学習を提案する。
実験結果から,提案手法は偽拒絶率を40.31%,偽受け入れ率1%で改善することが示された。
我々の最高のパフォーマンスシステムは、Google Speech Commands V1データセットで9,8.06%の精度を達成する。
論文 参考訳(メタデータ) (2024-08-23T20:03:51Z) - Multitaper mel-spectrograms for keyword spotting [42.82842124247846]
そこで本研究では,KWSの改良機能を実現するために,マルチタッパー技術を用いた手法について検討する。
提案した改良機能を使用することの利点を実験により確認した。
論文 参考訳(メタデータ) (2024-07-05T17:18:25Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - CODA-Prompt: COntinual Decomposed Attention-based Prompting for
Rehearsal-Free Continual Learning [30.676509834338884]
コンピュータビジョンモデルは、継続的なトレーニングデータから新しい概念を学ぶ際に、破滅的な忘れという現象に悩まされる。
データリハーサルに代わるアプローチを提案する。
我々は,従来のSOTA法であるDualPromptを,平均的な最終精度で最大4.5%上回っていることを示す。
論文 参考訳(メタデータ) (2022-11-23T18:57:11Z) - Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。
しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文 参考訳(メタデータ) (2022-07-22T17:52:30Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。