論文の概要: Distilled Non-Semantic Speech Embeddings with Binary Neural Networks for
Low-Resource Devices
- arxiv url: http://arxiv.org/abs/2207.05784v4
- Date: Sat, 2 Dec 2023 20:36:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 02:13:05.510438
- Title: Distilled Non-Semantic Speech Embeddings with Binary Neural Networks for
Low-Resource Devices
- Title(参考訳): バイナリニューラルネットを用いた低リソースデバイス用蒸留非合成音声埋め込み
- Authors: Harlin Lee and Aaqib Saeed
- Abstract要約: BRILLssonは、幅広い非意味的音声タスクのための、新しいバイナリニューラルネットワークベースの表現学習モデルである。
我々は,TRILLssonの訓練に使用するデータセットのごく一部を用いて,大規模かつ実数値のTRILLssonモデルから知識蒸留を用いてモデルを訓練する。
その結果生まれたBRILLssonモデルは、レイテンシが8ミリ秒未満で、わずか2MBの大きさで、ウェアラブルなどの低リソースデバイスへのデプロイに適している。
- 参考スコア(独自算出の注目度): 11.53072330273628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work introduces BRILLsson, a novel binary neural network-based
representation learning model for a broad range of non-semantic speech tasks.
We train the model with knowledge distillation from a large and real-valued
TRILLsson model with only a fraction of the dataset used to train TRILLsson.
The resulting BRILLsson models are only 2MB in size with a latency less than
8ms, making them suitable for deployment in low-resource devices such as
wearables. We evaluate BRILLsson on eight benchmark tasks (including but not
limited to spoken language identification, emotion recognition, health
condition diagnosis, and keyword spotting), and demonstrate that our proposed
ultra-light and low-latency models perform as well as large-scale models.
- Abstract(参考訳): BRILLssonは、幅広い非意味的音声タスクのための、新しいバイナリニューラルネットワークベースの表現学習モデルである。
我々は,TRILLssonの訓練に使用するデータセットのごく一部を用いて,大規模かつ実数値のTRILLssonモデルから知識蒸留を用いてモデルを訓練する。
その結果生まれたBRILLssonモデルは、レイテンシが8ms未満の2MBしかなく、ウェアラブルなどの低リソースデバイスへのデプロイに適している。
BRILLssonを8つのベンチマークタスク(音声言語識別、感情認識、健康状態診断、キーワードスポッティングなど)で評価し、提案したウルトラライトおよび低レイテンシモデルが大規模モデルと同様に動作することを示す。
関連論文リスト
- SparseVSR: Lightweight and Noise Robust Visual Speech Recognition [100.43280310123784]
我々は,高密度モデルよりも高い性能を実現する軽量モデルを生成する。
その結果,疎結合ネットワークは高密度ネットワークよりもノイズに耐性があることが確認された。
論文 参考訳(メタデータ) (2023-07-10T13:34:13Z) - Model Extraction Attack against Self-supervised Speech Models [52.81330435990717]
自己教師付き学習(SSL)音声モデルは、与えられたクリップの有意義な表現を生成する。
モデル抽出攻撃 (MEA) は、しばしば、クエリアクセスのみで被害者モデルの機能を盗む敵を指す。
本稿では,少数のクエリを用いたSSL音声モデルに対するMEA問題について検討する。
論文 参考訳(メタデータ) (2022-11-29T09:28:05Z) - Model Blending for Text Classification [0.15229257192293197]
テキスト分類などの自然言語処理におけるアートLSTMモデルの複雑性をCNNベースモデルに抽出することにより,テスト中の推論時間(あるいはレイテンシ)を短縮する。
論文 参考訳(メタデータ) (2022-08-05T05:07:45Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Real-time Human Detection Model for Edge Devices [0.0]
畳み込みニューラルネットワーク(CNN)は、検出と分類タスクにおいて、従来の特徴抽出と機械学習モデルを置き換える。
最近、リアルタイムタスクのために軽量CNNモデルが導入されている。
本稿では,Raspberry Piのような限られたエッジデバイスに適合するCNNベースの軽量モデルを提案する。
論文 参考訳(メタデータ) (2021-11-20T18:42:17Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - RethinkCWS: Is Chinese Word Segmentation a Solved Task? [81.11161697133095]
中国語の単語(CWS)システムの性能は、ディープニューラルネットワークの急速な発展とともに、徐々に高水準に達している。
本稿では、私たちが達成した事柄の株式を取得し、CWSタスクに残されている事柄を再考する。
論文 参考訳(メタデータ) (2020-11-13T11:07:08Z) - On Resource-Efficient Bayesian Network Classifiers and Deep Neural
Networks [14.540226579203207]
ベイズネットワーク(BN)分類器の複雑さを低減するための2つの方法を提案する。
まず、ストレートスルー勾配推定器を用いてBNのパラメータを数ビットに量子化する量子化学習を導入する。
第2に、モデルサイズも考慮し、最近提案された微分可能な木強化ナイーブベイズ (TAN) 構造学習手法を拡張した。
論文 参考訳(メタデータ) (2020-10-22T14:47:55Z) - Model Size Reduction Using Frequency Based Double Hashing for
Recommender Systems [6.415162722232605]
モデルサイズ削減のための周波数ハッシュ法と2重ハッシュ法を組み合わせたハイブリッドハッシュ法を提案する。
実験の結果,元のベースラインと同等の性能を維持しつつ,モデルサイズを約90%削減できることがわかった。
論文 参考訳(メタデータ) (2020-07-28T23:26:17Z) - REST: Robust and Efficient Neural Networks for Sleep Monitoring in the
Wild [62.36144064259933]
ニューラルネットワークの逆トレーニングとLipschitz定数の制御を通じて、両問題に同時に対処する新しい方法であるRESTを提案する。
私たちは、RESTがノイズの存在下で、オリジナルのフルサイズのモデルを大幅に上回る、ロバストで効率的なモデルを生成することを実証しています。
これらのモデルをスマートフォン上のAndroidアプリケーションにデプロイすることにより、RESTによってモデルが最大17倍のエネルギー削減と9倍高速な推論を達成することができることを定量的に観察する。
論文 参考訳(メタデータ) (2020-01-29T17:23:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。