論文の概要: Multiple-Instance, Cascaded Classification for Keyword Spotting in Narrow-Band Audio
- arxiv url: http://arxiv.org/abs/1711.08058v2
- Date: Fri, 25 Apr 2025 04:47:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:51.368878
- Title: Multiple-Instance, Cascaded Classification for Keyword Spotting in Narrow-Band Audio
- Title(参考訳): 狭帯域音声におけるキーワードスポッティングのためのマルチインスタンス・カスケード分類
- Authors: Ahmad AbdulKader, Kareem Nassar, Mohamed El-Geish, Daniel Galvez, Chetan Patil,
- Abstract要約: 狭帯域(NB)におけるキーワードスポッティング(KWS)タスクにカスケード分類器を用い,非IID環境で取得した8kHzのオーディオを提案する。
本稿では,Deep Neural Networks (DNN), Cascading, multiple-feature representations, multiple-instance learningを組み込んだモデルを提案する。
KWSシステムは、時間ごとの偽陽性率0.75で6%の偽陰率を達成する。
- 参考スコア(独自算出の注目度): 0.4793481003355277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose using cascaded classifiers for a keyword spotting (KWS) task on narrow-band (NB), 8kHz audio acquired in non-IID environments -- a more challenging task than most state-of-the-art KWS systems face. We present a model that incorporates Deep Neural Networks (DNNs), cascading, multiple-feature representations, and multiple-instance learning. The cascaded classifiers handle the task's class imbalance and reduce power consumption on computationally-constrained devices via early termination. The KWS system achieves a false negative rate of 6% at an hourly false positive rate of 0.75
- Abstract(参考訳): 狭帯域(NB)上のキーワードスポッティング(KWS)タスクにカスケード分類器を用い,非IID環境で取得した8kHzのオーディオを,最先端のKWSシステムよりも困難なタスクとして提案する。
本稿では,Deep Neural Networks (DNN), Cascading, multiple-feature representations, multiple-instance learningを組み込んだモデルを提案する。
カスケード分類器はタスクのクラス不均衡を処理し、早期終了による計算制約のあるデバイスでの消費電力を減らす。
KWSシステムは1時間当たりの偽陽性率0.75で6%の偽陰性率を達成する
関連論文リスト
- Multi-class Network Intrusion Detection with Class Imbalance via LSTM & SMOTE [1.0591656257413806]
本稿では,様々な種類のネットワーク侵入を検出するために,オーバーサンプリング手法と適切な損失関数を用いたクラス不均衡処理を提案する。
我々のディープラーニングモデルは、ネットワーク攻撃のマルチクラス分類を行うために、完全に接続された層を持つLSTMを使用している。
論文 参考訳(メタデータ) (2023-10-03T07:28:04Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - A robust approach for deep neural networks in presence of label noise:
relabelling and filtering instances during training [14.244244290954084]
我々は、任意のCNNで使用できるRAFNIと呼ばれるラベルノイズに対する堅牢なトレーニング戦略を提案する。
RAFNIは、インスタンスをフィルタリングする2つのメカニズムと、インスタンスをリラベルする1つのメカニズムからなる。
いくつかのサイズと特徴の異なるデータセットを用いて,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2021-09-08T16:11:31Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z) - Coresets for Robust Training of Neural Networks against Noisy Labels [78.03027938765746]
本稿では,雑音ラベルで訓練したディープネットワークの堅牢なトレーニングのための理論的保証を強く備えた新しい手法を提案する。
我々は、ほぼ低ランクのヤコビ行列を提供するクリーンなデータポイントの重み付き部分集合(コアセット)を選択する。
我々の実験は、我々の理論を裏付け、我々のサブセットで訓練されたディープネットワークが、最先端技術よりもはるかに優れたパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2020-11-15T04:58:11Z) - RethinkCWS: Is Chinese Word Segmentation a Solved Task? [81.11161697133095]
中国語の単語(CWS)システムの性能は、ディープニューラルネットワークの急速な発展とともに、徐々に高水準に達している。
本稿では、私たちが達成した事柄の株式を取得し、CWSタスクに残されている事柄を再考する。
論文 参考訳(メタデータ) (2020-11-13T11:07:08Z) - Audio Spoofing Verification using Deep Convolutional Neural Networks by
Transfer Learning [0.0]
本稿では,スプーフィング攻撃を検出するために,ディープ畳み込みニューラルネットワークに基づく音声分類器を提案する。
提案手法は,メル周波数スケールにおけるパワースペクトル密度の音響的時間周波数表現を用いた。
我々は、開発において0.9056%、論理アクセスシナリオの評価データセットにおいて5.32%の誤差率(EER)を達成した。
論文 参考訳(メタデータ) (2020-08-08T07:14:40Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z) - A Deep Neural Network for Audio Classification with a Classifier
Attention Mechanism [2.3204178451683264]
我々は、Audio-based Convolutional Neural Network (CAB-CNN)と呼ばれる新しいアテンションベースニューラルネットワークアーキテクチャを導入する。
このアルゴリズムは、単純な分類器のリストと、セレクタとしてアテンションメカニズムからなる、新しく設計されたアーキテクチャを使用する。
我々のアルゴリズムは最先端のアルゴリズムと比較して、選択したテストスコアに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2020-06-14T21:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。