論文の概要: Self-supervised speech representation learning for keyword-spotting with
light-weight transformers
- arxiv url: http://arxiv.org/abs/2303.04255v1
- Date: Tue, 7 Mar 2023 21:54:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 15:44:27.185654
- Title: Self-supervised speech representation learning for keyword-spotting with
light-weight transformers
- Title(参考訳): 軽量トランスを用いたキーワードスポッティングのための自己教師付き音声表現学習
- Authors: Chenyang Gao, Yue Gu, Francesco Caliva, and Yuzong Liu
- Abstract要約: 自己教師付き音声表現学習(S3RL)は、ますます増加するデータの活用方法に革命をもたらしている。
330kパラメータの変換器を用いて,キーワードスポッティング問題に対するS3RLの有効性を示す。
本稿では,分類タスクの性能向上に欠かせない,発話的区別を高めるメカニズムを提案する。
- 参考スコア(独自算出の注目度): 7.95299715273878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised speech representation learning (S3RL) is revolutionizing the
way we leverage the ever-growing availability of data. While S3RL related
studies typically use large models, we employ light-weight networks to comply
with tight memory of compute-constrained devices. We demonstrate the
effectiveness of S3RL on a keyword-spotting (KS) problem by using transformers
with 330k parameters and propose a mechanism to enhance utterance-wise
distinction, which proves crucial for improving performance on classification
tasks. On the Google speech commands v2 dataset, the proposed method applied to
the Auto-Regressive Predictive Coding S3RL led to a 1.2% accuracy improvement
compared to training from scratch. On an in-house KS dataset with four
different keywords, it provided 6% to 23.7% relative false accept improvement
at fixed false reject rate. We argue this demonstrates the applicability of
S3RL approaches to light-weight models for KS and confirms S3RL is a powerful
alternative to traditional supervised learning for resource-constrained
applications.
- Abstract(参考訳): 自己教師付き音声表現学習(S3RL)は、ますます増加するデータの活用方法に革命をもたらしている。
S3RL関連の研究は通常、大きなモデルを用いるが、計算制約のあるデバイスの厳密なメモリに対応するために軽量ネットワークを用いる。
330kパラメータの変換器を用いて,キーワードスポッティング(KS)問題に対するS3RLの有効性を実証し,分類タスクの性能向上に欠かせない発話単位の区別を強化する機構を提案する。
google speech commands v2データセットでは、自動回帰予測符号 s3rl に適用した提案手法が、スクラッチからのトレーニングと比較して1.2%の精度向上をもたらした。
4つの異なるキーワードを持つ社内のksデータセットでは、固定された偽拒絶率で6%から23.7%の相対的偽受け入れ改善を提供する。
このことは、KSの軽量モデルへのS3RLアプローチの適用性を実証し、S3RLがリソース制約されたアプリケーションに対する従来の教師あり学習の強力な代替手段であることを確認した。
関連論文リスト
- Enhancing CTC-Based Visual Speech Recognition [11.269066294359144]
LiteVSR2は、以前導入した視覚音声認識に対する効率的なアプローチの拡張版である。
本稿では, 安定ビデオ前処理技術と蒸留プロセスにおける特徴正規化の2つの重要な改良点を紹介する。
LiteVSR2は前者の効率を維持しながら精度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-09-11T12:02:42Z) - Continual Learning Optimizations for Auto-regressive Decoder of Multilingual ASR systems [20.07672057717825]
継続学習(CL)は、事前学習されたデータの性能を維持しながら、新しいデータで訓練済みモデルを微調整する。
自動回帰デコーダのMASRモデルにおける4つの最適化を提案する。
Common VoiceデータセットからWhisperを10の未確認言語に適応させる実験では、これらの最適化により、事前訓練された言語の平均単語誤り率(AWER)が、Experience Replayと比較して14.2%から12.4%に低下することが示されている。
論文 参考訳(メタデータ) (2024-07-04T05:35:47Z) - Three Guidelines You Should Know for Universally Slimmable
Self-Supervised Learning [4.631627683014556]
我々は,複数のデバイスにまたがって自己教師付きモデルを展開するための精度・効率のトレードオフを実現するために,普遍的にスリム化可能な自己教師付き学習(US3L)を提案する。
我々は,学習過程が頻繁に崩壊するにつれて,自己指導型学習のネットワークへの直接的な適応が誤っていることを観察する。
我々は、この時間的一貫性を統一的な視点から確保するために、損失設計のための3つのガイドラインを提案する。
論文 参考訳(メタデータ) (2023-03-13T05:37:46Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - SPE-Net: Boosting Point Cloud Analysis via Rotation Robustness
Enhancement [118.20816888815658]
SPE-Netという名前の3Dポイントクラウドアプリケーションに適した新しいディープアーキテクチャを提案する。
埋め込みSelective Position variant' の手順は、入力の根底にある回転条件に効果的に対応できる注意機構に依存している。
SPE-Netと関連する仮説の利点を4つのベンチマークで示し、SOTA法よりも回転試験データと回転試験データの両方に明らかな改善点を示した。
論文 参考訳(メタデータ) (2022-11-15T15:59:09Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under
Data Augmentation [25.493902939111265]
オフ・ポリティクス強化学習アルゴリズムにおけるデータ強化における不安定性の原因について検討する。
本稿では,このアルゴリズムを拡張の下で安定化するための,シンプルで効果的な手法を提案する。
本手法は,画像ベースRLの最先端手法と競合し,ConvNetの安定性とサンプル効率を大幅に向上させる。
論文 参考訳(メタデータ) (2021-07-01T17:58:05Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。