論文の概要: Contrastive Augmentation: An Unsupervised Learning Approach for Keyword Spotting in Speech Technology
- arxiv url: http://arxiv.org/abs/2409.00356v1
- Date: Sat, 31 Aug 2024 05:40:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 15:23:54.164227
- Title: Contrastive Augmentation: An Unsupervised Learning Approach for Keyword Spotting in Speech Technology
- Title(参考訳): コントラスト強化:音声技術におけるキーワードスポッティングの教師なし学習アプローチ
- Authors: Weinan Dai, Yifeng Jiang, Yuanjing Liu, Jinkun Chen, Xin Sun, Jinglei Tao,
- Abstract要約: 教師なしコントラスト学習と拡張一意的手法を組み合わせた新しい手法を提案する。
我々の方法では、ニューラルネットワークがラベルのないデータセットでトレーニングすることができ、下流タスクのパフォーマンスが向上する可能性がある。
本稿では,ボトルネック層の特徴と音声再構成情報との類似性を利用した音声強化に基づく教師なし学習手法を提案する。
- 参考スコア(独自算出の注目度): 4.080686348274667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the persistent challenge in Keyword Spotting (KWS), a fundamental component in speech technology, regarding the acquisition of substantial labeled data for training. Given the difficulty in obtaining large quantities of positive samples and the laborious process of collecting new target samples when the keyword changes, we introduce a novel approach combining unsupervised contrastive learning and a unique augmentation-based technique. Our method allows the neural network to train on unlabeled data sets, potentially improving performance in downstream tasks with limited labeled data sets. We also propose that similar high-level feature representations should be employed for speech utterances with the same keyword despite variations in speed or volume. To achieve this, we present a speech augmentation-based unsupervised learning method that utilizes the similarity between the bottleneck layer feature and the audio reconstructing information for auxiliary training. Furthermore, we propose a compressed convolutional architecture to address potential redundancy and non-informative information in KWS tasks, enabling the model to simultaneously learn local features and focus on long-term information. This method achieves strong performance on the Google Speech Commands V2 Dataset. Inspired by recent advancements in sign spotting and spoken term detection, our method underlines the potential of our contrastive learning approach in KWS and the advantages of Query-by-Example Spoken Term Detection strategies. The presented CAB-KWS provide new perspectives in the field of KWS, demonstrating effective ways to reduce data collection efforts and increase the system's robustness.
- Abstract(参考訳): 本稿では,音声認識技術の基本コンポーネントであるキーワードスポッティング(KWS)における,学習用ラベル付きデータの取得に関する永続的課題について述べる。
キーワードが変化すると、大量の陽性サンプルを得るのが困難であることや、新しいターゲットサンプルを収集する手間のかかるプロセスを考えると、教師なしのコントラスト学習と独自の拡張技術を組み合わせた新しいアプローチを導入する。
提案手法により,ニューラルネットワークはラベル付きデータセット上でのトレーニングが可能となり,ラベル付きデータセットが限定された下流タスクのパフォーマンスが向上する可能性がある。
また,音速や音量の変化に拘わらず,同じキーワードの発話に類似した高レベル特徴表現を用いることを提案する。
これを実現するために,ボトルネック層の特徴と音声再構成情報との類似性を利用した音声強化に基づく教師なし学習手法を提案する。
さらに,KWSタスクにおける潜在的な冗長性と非情報に対処する圧縮畳み込みアーキテクチャを提案し,局所的な特徴を同時に学習し,長期的情報に集中できるようにする。
この手法は,Google Speech Commands V2 Dataset上で高い性能を実現する。
近年のサインスポッティングと音声語検出の進歩にインスパイアされた本手法は,KWSにおけるコントラスト学習アプローチの可能性と,クエリ・バイ・エグゼクティブ・ポスケン・ターム・ディテクト・ストラテジーの利点を基盤としている。
提示されたCAB-KWSは、KWSの分野における新たな視点を提供し、データ収集の労力を削減し、システムの堅牢性を高める効果的な方法を示す。
関連論文リスト
- C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Continual Contrastive Spoken Language Understanding [33.09005399967931]
COCONUTは、経験リプレイとコントラスト学習の組み合わせに依存するクラスインクリメンタルラーニング(CIL)手法である。
我々は,COCONUTをデコーダ側で動作するメソッドと組み合わせることで,さらなるメトリクス改善を実現することを示す。
論文 参考訳(メタデータ) (2023-10-04T10:09:12Z) - Reinforcement Learning Based Multi-modal Feature Fusion Network for
Novel Class Discovery [47.28191501836041]
本稿では,人間の認知過程をシミュレートするために強化学習フレームワークを用いる。
また,マルチモーダル情報から特徴を抽出・融合するマルチエージェントフレームワークをデプロイした。
我々は、OS-MN40、OS-MN40-Miss、Cifar10データセットを用いて、3Dドメインと2Dドメインの両方でのアプローチの性能を示す。
論文 参考訳(メタデータ) (2023-08-26T07:55:32Z) - Subspace Distillation for Continual Learning [27.22147868163214]
本稿では,ニューラルネットワークの多様体構造を考慮した知識蒸留手法を提案する。
部分空間を用いたモデリングは、雑音に対するロバスト性など、いくつかの興味深い特性を提供することを示した。
実験により,提案手法は,いくつかの挑戦的データセットにおいて,様々な連続学習法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-07-31T05:59:09Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - An Investigation of the Combination of Rehearsal and Knowledge
Distillation in Continual Learning for Spoken Language Understanding [9.447108578893639]
本稿では,言語理解のためのリハーサルと知識蒸留の併用を,クラス増分学習シナリオ下で検討する。
ネットワーク内の異なるレベルにおける複数のKD組み合わせについて報告し、特徴レベルと予測レベルのKDの組み合わせが最良の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-15T14:15:22Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Context Decoupling Augmentation for Weakly Supervised Semantic
Segmentation [53.49821324597837]
微調整されたセマンティックセグメンテーションは、近年深く研究されている困難な問題です。
本稿では、オブジェクトが現れる固有のコンテキストを変更する Context Decoupling Augmentation (CDA) メソッドを紹介します。
提案手法の有効性を検証するため, PASCAL VOC 2012データセットにいくつかの代替ネットワークアーキテクチャを用いた広範な実験を行い, CDAが様々なWSSS手法を新たな最先端技術に拡張できることを実証した。
論文 参考訳(メタデータ) (2021-03-02T15:05:09Z) - Incremental Embedding Learning via Zero-Shot Translation [65.94349068508863]
現在の最先端のインクリメンタル学習手法は、従来の分類ネットワークにおける破滅的な忘れ方問題に取り組む。
ゼロショット変換クラス増分法(ZSTCI)と呼ばれる新しい組込みネットワークのクラス増分法を提案する。
さらに、ZSTCIを既存の正規化ベースのインクリメンタル学習手法と組み合わせることで、組み込みネットワークの性能をより向上させることができる。
論文 参考訳(メタデータ) (2020-12-31T08:21:37Z) - Data-efficient Weakly-supervised Learning for On-line Object Detection
under Domain Shift in Robotics [24.878465999976594]
文献では、Deep Convolutional Neural Networks (DCNNs)に基づく多数のオブジェクト検出方法が提案されている。
これらの手法はロボティクスに重要な制限がある:オフラインデータのみに学習するとバイアスが発生し、新しいタスクへの適応を防ぐことができる。
本研究では,弱い教師付き学習がこれらの問題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2020-12-28T16:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。