論文の概要: Broadcasted Residual Learning for Efficient Keyword Spotting
- arxiv url: http://arxiv.org/abs/2106.04140v4
- Date: Wed, 5 Jul 2023 15:18:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 01:06:50.227510
- Title: Broadcasted Residual Learning for Efficient Keyword Spotting
- Title(参考訳): 効率的なキーワードスポッティングのための放送残差学習
- Authors: Byeonggeun Kim, Simyung Chang, Jinkyu Lee, Dooyong Sung
- Abstract要約: モデルサイズと計算負荷を小さくして高精度な放送残差学習手法を提案する。
また,放送残差学習に基づく新しいネットワークアーキテクチャ,BC-Residual Network(BC-ResNet)を提案する。
BC-ResNetsは、Googleの音声コマンドデータセット v1 と v2 で、最先端の98.0% と98.7% のトップ-1 の精度をそれぞれ達成している。
- 参考スコア(独自算出の注目度): 7.335747584353902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Keyword spotting is an important research field because it plays a key role
in device wake-up and user interaction on smart devices. However, it is
challenging to minimize errors while operating efficiently in devices with
limited resources such as mobile phones. We present a broadcasted residual
learning method to achieve high accuracy with small model size and
computational load. Our method configures most of the residual functions as 1D
temporal convolution while still allows 2D convolution together using a
broadcasted-residual connection that expands temporal output to
frequency-temporal dimension. This residual mapping enables the network to
effectively represent useful audio features with much less computation than
conventional convolutional neural networks. We also propose a novel network
architecture, Broadcasting-residual network (BC-ResNet), based on broadcasted
residual learning and describe how to scale up the model according to the
target device's resources. BC-ResNets achieve state-of-the-art 98.0% and 98.7%
top-1 accuracy on Google speech command datasets v1 and v2, respectively, and
consistently outperform previous approaches, using fewer computations and
parameters. Code is available at
https://github.com/Qualcomm-AI-research/bcresnet.
- Abstract(参考訳): キーワードスポッティングは、スマートデバイスでのデバイス起動とユーザインタラクションにおいて重要な役割を果たすため、重要な研究分野である。
しかし、携帯電話などの限られたリソースを持つデバイスで効率的に動作しながらエラーを最小限に抑えることは困難である。
本稿では,モデルサイズと計算負荷を小さくして高精度な残差学習を実現する。
残差関数のほとんどを1次元の時間的畳み込みとして構成するが、2次元の畳み込みは時間的出力を周波数・時間的次元に拡張するブロードキャストド・リシデント接続を用いて行う。
この残差マッピングにより、従来の畳み込みニューラルネットワークよりもはるかに少ない計算で有用な音声特徴を効果的に表現することができる。
また,broadcast-residual network (bc-resnet) という新しいネットワークアーキテクチャを提案する。
bc-resnetsはgoogle speech commandデータセットv1とv2で98.0%と98.7%のtop-1精度を達成し、計算量やパラメータの少ない従来のアプローチを一貫して上回っている。
コードはhttps://github.com/Qualcomm-AI-research/bcresnetで入手できる。
関連論文リスト
- Cascaded Temporal Updating Network for Efficient Video Super-Resolution [47.63267159007611]
リカレントベースのVSRネットワークにおけるキーコンポーネントはモデル効率に大きな影響を及ぼす。
本稿では,効率的なVSRのための時空間更新ネットワーク(CTUN)を提案する。
CTUNは,従来の方法に比べて効率と性能のトレードオフが良好である。
論文 参考訳(メタデータ) (2024-08-26T12:59:32Z) - Efficient Ensemble for Multimodal Punctuation Restoration using
Time-Delay Neural Network [1.006218778776515]
自動音声認識の処理過程において,句読解は重要な役割を担っている。
マルチモーダル時間遅延ニューラルネットワークを用いたアンサンブル手法であるEfficientPunctを提案する。
現在のベストモデルを1.0 F1ポイント上回り、推論ネットワークパラメータの10分の1以下である。
論文 参考訳(メタデータ) (2023-02-26T18:28:20Z) - Efficient Parametric Approximations of Neural Network Function Space
Distance [6.117371161379209]
モデルパラメータとトレーニングデータの重要な特性をコンパクトに要約して、データセット全体を保存または/または反復することなく後で使用できるようにすることが、しばしば有用である。
我々は,FSD(Function Space Distance)をトレーニングセット上で推定することを検討する。
本稿では、線形化活性化TRick (LAFTR) を提案し、ReLUニューラルネットワークに対するFSDの効率的な近似を導出する。
論文 参考訳(メタデータ) (2023-02-07T15:09:23Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - A Temporal-oriented Broadcast ResNet for COVID-19 Detection [11.306011762214272]
モデルサイズを小さくして効率的な計算と高精度を実現するための時間指向放送残差学習手法を提案する。
The EfficientNet architecture, our novel network, named Temporal-oriented ResNet(TorNet)は,放送学習ブロックを構成する。
ABブロックにより、ネットワークは、リカレントニューラルネットワーク(RNN)よりもはるかに少ない計算で有用な音声時間的特徴と高レベルの埋め込みを効果的に得る。
論文 参考訳(メタデータ) (2022-03-31T13:11:57Z) - a novel attention-based network for fast salient object detection [14.246237737452105]
現在の有向物体検出ネットワークにおいて、最も一般的な方法はU字型構造を用いることである。
3つのコントリビューションを持つ新しい深層畳み込みネットワークアーキテクチャを提案する。
提案手法は, 精度を損なうことなく, 原サイズの1/3まで圧縮できることを示した。
論文 参考訳(メタデータ) (2021-12-20T12:30:20Z) - SignalNet: A Low Resolution Sinusoid Decomposition and Estimation
Network [79.04274563889548]
本稿では,正弦波数を検出するニューラルネットワークアーキテクチャであるSignalNetを提案する。
基礎となるデータ分布と比較して,ネットワークの結果を比較するための最悪の学習しきい値を導入する。
シミュレーションでは、我々のアルゴリズムは常に3ビットデータのしきい値を超えることができるが、しばしば1ビットデータのしきい値を超えることはできない。
論文 参考訳(メタデータ) (2021-06-10T04:21:20Z) - Enabling certification of verification-agnostic networks via
memory-efficient semidefinite programming [97.40955121478716]
本稿では,ネットワークアクティベーションの総数にのみ線形なメモリを必要とする一階二重SDPアルゴリズムを提案する。
L-inf の精度は 1% から 88% ,6% から 40% に改善した。
また,変分オートエンコーダの復号器に対する2次安定性仕様の厳密な検証を行った。
論文 参考訳(メタデータ) (2020-10-22T12:32:29Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。