論文の概要: Temporal Knowledge Distillation for On-device Audio Classification
- arxiv url: http://arxiv.org/abs/2110.14131v1
- Date: Wed, 27 Oct 2021 02:29:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 15:38:36.573920
- Title: Temporal Knowledge Distillation for On-device Audio Classification
- Title(参考訳): オンデバイス音声分類のための時間知識蒸留
- Authors: Kwanghee Choi, Martin Kersner, Jacob Morton, and Buru Chang
- Abstract要約: 本研究では,大規模モデルの注意重みに埋め込まれた時間的知識をデバイス上でのモデルに組み込むための新しい知識蒸留法を提案する。
提案手法は,様々なデバイスアーキテクチャにおける予測性能を向上させる。
- 参考スコア(独自算出の注目度): 2.2731658205414025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving the performance of on-device audio classification models remains a
challenge given the computational limits of the mobile environment. Many
studies leverage knowledge distillation to boost predictive performance by
transferring the knowledge from large models to on-device models. However, most
lack the essence of the temporal information which is crucial to audio
classification tasks, or similar architecture is often required. In this paper,
we propose a new knowledge distillation method designed to incorporate the
temporal knowledge embedded in attention weights of large models to on-device
models. Our distillation method is applicable to various types of
architectures, including the non-attention-based architectures such as CNNs or
RNNs, without any architectural change during inference. Through extensive
experiments on both an audio event detection dataset and a noisy keyword
spotting dataset, we show that our proposed method improves the predictive
performance across diverse on-device architectures.
- Abstract(参考訳): モバイル環境の計算限界を考えると,オンデバイス音声分類モデルの性能向上は依然として課題である。
多くの研究は知識蒸留を利用して、大きなモデルからオンデバイスモデルに知識を移すことで予測性能を高める。
しかし、音声分類タスクに不可欠な時間情報の本質や類似したアーキテクチャが欠如していることが多い。
本稿では,大規模モデルの注意重みに埋め込まれた時間的知識をデバイス上のモデルに組み込むための新しい知識蒸留手法を提案する。
蒸留法は,CNNやRNNなどの非アテンション型アーキテクチャなど,様々な種類のアーキテクチャに適用できる。
音声イベント検出データセットとノイズの多いキーワードスポッティングデータセットの両方に関する広範な実験により,提案手法はデバイス上での様々なアーキテクチャにおける予測性能を向上させる。
関連論文リスト
- Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Probing the Information Encoded in Neural-based Acoustic Models of
Automatic Speech Recognition Systems [7.207019635697126]
本稿では,自動音声認識音響モデル(AM)における情報の位置と位置を決定することを目的とする。
話者検証,音響環境分類,性別分類,テンポ歪検出システム,音声感情・感情識別について実験を行った。
分析の結果、ニューラルベースAMは驚くほど音素認識と無関係に思える異種情報を持っていることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:43:53Z) - Hierarchical Augmentation and Distillation for Class Incremental Audio-Visual Video Recognition [62.85802939587308]
本稿では,CIAVVR(Class Incremental Audio-Visual Video Recognition)の探索に焦点をあてる。
記憶されたデータと過去のクラスの学習モデルの両方が歴史的知識を含んでいるため、過去のデータ知識と過去のモデル知識をキャプチャして破滅的な忘れを防げるかが課題である。
本稿では,階層拡張モジュール (HAM) と階層拡張モジュール (HDM) を組み合わせた階層拡張蒸留 (HAD) を導入し,データとモデルの階層構造を効率的に活用する。
論文 参考訳(メタデータ) (2024-01-11T23:00:24Z) - Topology combined machine learning for consonant recognition [8.188982461393278]
TopCapは、低次元の内在性を持つデータセットでまれに検出される特徴をキャプチャできる。
発声子音と無声子音の分類において、TopCapは96%を超える精度を達成している。
TopCapは、音声と音声の深層学習のためのトポロジ的畳み込み層の設計を目的としている。
論文 参考訳(メタデータ) (2023-11-26T06:53:56Z) - S4Sleep: Elucidating the design space of deep-learning-based sleep stage classification models [1.068128849363198]
本研究では,エンコーダ・予測アーキテクチャの幅広いカテゴリにおける設計選択について検討する。
時系列およびスペクトログラム入力表現の両方に適用可能なロバストアーキテクチャを同定する。
これらのアーキテクチャは、構造化状態空間モデルを積分成分として含み、統計的に重要な性能改善を実現する。
論文 参考訳(メタデータ) (2023-10-10T15:42:14Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - Robust Audio Anomaly Detection [10.75127981612396]
提案されたアプローチは、トレーニングデータセットにラベル付き異常が存在することを前提としません。
時間力学は、注意機構を付加した繰り返し層を用いてモデル化される。
ネットワークの出力は、外向きの頑健な確率密度関数である。
論文 参考訳(メタデータ) (2022-02-03T17:19:42Z) - Leveraging the structure of dynamical systems for data-driven modeling [111.45324708884813]
トレーニングセットとその構造が長期予測の品質に与える影響を考察する。
トレーニングセットのインフォームドデザインは,システムの不変性と基盤となるアトラクションの構造に基づいて,結果のモデルを大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-12-15T20:09:20Z) - Single-Layer Vision Transformers for More Accurate Early Exits with Less
Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。
本手法は分類問題と回帰問題の両方に有効であることを示す。
また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-19T13:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。