論文の概要: Small-Footprint Keyword Spotting with Multi-Scale Temporal Convolution
- arxiv url: http://arxiv.org/abs/2010.09960v1
- Date: Tue, 20 Oct 2020 02:07:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 08:07:40.325534
- Title: Small-Footprint Keyword Spotting with Multi-Scale Temporal Convolution
- Title(参考訳): マルチスケールテンポラルコンボリューションを用いた小容量文字スポッティング
- Authors: Ximin Li, Xiaodong Wei, Xiaowei Qin
- Abstract要約: キーワードスポッティング(KWS)は、スマートデバイス端末やサービスロボットにおける人間とコンピュータのインタラクションにおいて重要な役割を果たす。
KWSタスクの小さなフットプリントと高い精度のトレードオフを達成することは依然として困難である。
本稿では,カーネルサイズが異なる複数の時間的畳み込みフィルタからなるCNNブロックであるMTConvを提案する。
- 参考スコア(独自算出の注目度): 5.672132510411465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Keyword Spotting (KWS) plays a vital role in human-computer interaction for
smart on-device terminals and service robots. It remains challenging to achieve
the trade-off between small footprint and high accuracy for KWS task. In this
paper, we explore the application of multi-scale temporal modeling to the
small-footprint keyword spotting task. We propose a multi-branch temporal
convolution module (MTConv), a CNN block consisting of multiple temporal
convolution filters with different kernel sizes, which enriches temporal
feature space. Besides, taking advantage of temporal and depthwise convolution,
a temporal efficient neural network (TENet) is designed for KWS system. Based
on the purposed model, we replace standard temporal convolution layers with
MTConvs that can be trained for better performance. While at the inference
stage, the MTConv can be equivalently converted to the base convolution
architecture, so that no extra parameters and computational costs are added
compared to the base model. The results on Google Speech Command Dataset show
that one of our models trained with MTConv performs the accuracy of 96.8% with
only 100K parameters.
- Abstract(参考訳): キーワードスポッティング(KWS)は、スマートデバイス端末やサービスロボットにおける人間とコンピュータのインタラクションにおいて重要な役割を果たす。
KWSタスクの小さなフットプリントと高い精度のトレードオフを達成することは依然として困難である。
本稿では,スモールプリントキーワードスポッティングタスクにおけるマルチスケール時空間モデリングの応用について検討する。
本稿では,カーネルサイズが異なる複数の時相畳み込みフィルタからなるcnnブロックであるマルチブランチ時相畳み込みモジュール(mtconv)を提案する。
さらに、時間的および深度的な畳み込みを利用して、KWSシステム用に時間的効率の良いニューラルネットワーク(TENet)を設計する。
目的モデルに基づいて,性能向上のためにトレーニング可能な標準時相畳み込み層をmtconvに置き換える。
推論段階では、MTConvはベース畳み込みアーキテクチャに等価に変換でき、基本モデルと比較して余分なパラメータや計算コストが加算されない。
Google Speech Command Datasetの結果は、MTConvでトレーニングされたモデルの1つが、たった100Kパラメータで96.8%の精度で実行されていることを示している。
関連論文リスト
- RepCNN: Micro-sized, Mighty Models for Wakeword Detection [3.4888176891918654]
常時オンの機械学習モデルは、非常に少ないメモリと計算フットプリントを必要とする。
より大規模なマルチブランチアーキテクチャへの計算によって、小さな畳み込みモデルをよりよく訓練できることが示される。
我々は、常時起動するウェイクワード検出モデルであるRepCNNが、推論中のレイテンシと精度のトレードオフを良好に提供することを示す。
論文 参考訳(メタデータ) (2024-06-04T16:14:19Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:49:35Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - SITHCon: A neural network robust to variations in input scaling on the
time dimension [0.0]
機械学習では、畳み込みニューラルネットワーク(CNN)はコンピュータビジョンと時間とともに拡張されたパターンの認識の両方に非常に影響を与えている。
本稿では,対数的に分散した時間メモリを用いたSITHCon(Scale-Invariant Temporal History Convolution Network)を提案する。
論文 参考訳(メタデータ) (2021-07-09T18:11:50Z) - Broadcasted Residual Learning for Efficient Keyword Spotting [7.335747584353902]
モデルサイズと計算負荷を小さくして高精度な放送残差学習手法を提案する。
また,放送残差学習に基づく新しいネットワークアーキテクチャ,BC-Residual Network(BC-ResNet)を提案する。
BC-ResNetsは、Googleの音声コマンドデータセット v1 と v2 で、最先端の98.0% と98.7% のトップ-1 の精度をそれぞれ達成している。
論文 参考訳(メタデータ) (2021-06-08T06:55:39Z) - STH: Spatio-Temporal Hybrid Convolution for Efficient Action Recognition [39.58542259261567]
本稿では,空間的・時間的映像情報を小さなパラメータで同時に符号化するS-Temporal Hybrid Network(STH)を提案する。
このような設計は、効率的な時間的モデリングを可能にし、小さなモデルスケールを維持する。
STHは、3D CNNよりもパフォーマンス上の優位性を持ち、2D CNNよりもはるかに少ないパラメータコストを維持している。
論文 参考訳(メタデータ) (2020-03-18T04:46:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。