論文の概要: End-to-End Auditory Object Recognition via Inception Nucleus
- arxiv url: http://arxiv.org/abs/2005.12195v1
- Date: Mon, 25 May 2020 16:08:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 05:36:39.350336
- Title: End-to-End Auditory Object Recognition via Inception Nucleus
- Title(参考訳): インセプション核を用いたエンドツーエンド聴覚物体認識
- Authors: Mohammad K. Ebrahimpour, Timothy Shea, Andreea Danielescu, David C.
Noelle, Christopher T. Kello
- Abstract要約: 生波形入力を音響クラスラベルにマッピングする,新しいエンドツーエンドのディープニューラルネットワークを提案する。
私たちのネットワークには、ハエの畳み込みフィルタのサイズを最適化する「開始核」が含まれています。
- 参考スコア(独自算出の注目度): 7.22898229765707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning approaches to auditory object recognition are traditionally
based on engineered features such as those derived from the spectrum or
cepstrum. More recently, end-to-end classification systems in image and
auditory recognition systems have been developed to learn features jointly with
classification and result in improved classification accuracy. In this paper,
we propose a novel end-to-end deep neural network to map the raw waveform
inputs to sound class labels. Our network includes an "inception nucleus" that
optimizes the size of convolutional filters on the fly that results in reducing
engineering efforts dramatically. Classification results compared favorably
against current state-of-the-art approaches, besting them by 10.4 percentage
points on the Urbansound8k dataset. Analyses of learned representations
revealed that filters in the earlier hidden layers learned wavelet-like
transforms to extract features that were informative for classification.
- Abstract(参考訳): 聴覚物体認識への機械学習のアプローチは、伝統的にスペクトルやケプストラムに由来するような工学的特徴に基づいている。
近年,画像と聴覚の認識システムにおけるエンドツーエンドの分類システムが開発され,特徴が分類と連動して学習され,分類精度が向上している。
本稿では,生波形入力を音響クラスラベルにマッピングする,新しいエンドツーエンドのディープニューラルネットワークを提案する。
当社のネットワークには,コンボリューションフィルタのサイズをオンザフライで最適化する“インセプション核(inception nucleus)”が含まれています。
分類結果は、現在の最先端のアプローチと比較し、urbansound8kデータセットで10.4ポイント向上した。
学習された表現の分析により、初期の隠れ層のフィルターはウェーブレットのような変換を学び、分類に有用な特徴を抽出した。
関連論文リスト
- Heterogeneous sound classification with the Broad Sound Taxonomy and Dataset [6.91815289914328]
本稿では,異種音の自動分類手法について検討する。
手動のアノテーションによってデータセットを構築し、精度、クラスごとの多様な表現、実世界のシナリオにおける関連性を保証する。
実験結果から,音響情報や意味情報をエンコードした音声埋め込みは,分類作業において高い精度を実現することが示された。
論文 参考訳(メタデータ) (2024-10-01T18:09:02Z) - Histogram Layer Time Delay Neural Networks for Passive Sonar
Classification [58.720142291102135]
時間遅延ニューラルネットワークとヒストグラム層を組み合わせた新しい手法により,特徴学習の改善と水中音響目標分類を実現する。
提案手法はベースラインモデルより優れており,受動的ソナー目標認識のための統計的文脈を取り入れた有効性を示す。
論文 参考訳(メタデータ) (2023-07-25T19:47:26Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Conditional Variational Capsule Network for Open Set Recognition [64.18600886936557]
オープンセット認識では、分類器はトレーニング時に未知の未知のクラスを検出する必要がある。
最近提案されたカプセルネットワークは、特に画像認識において、多くの分野で代替案を上回ることが示されている。
本提案では,訓練中,同じ既知のクラスのカプセルの特徴を,事前に定義されたガウス型に適合させることを推奨する。
論文 参考訳(メタデータ) (2021-04-19T09:39:30Z) - An evidential classifier based on Dempster-Shafer theory and deep
learning [6.230751621285322]
Dempster-Shafer(DS)理論に基づく新しい分類システムと、集合値分類のための畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。
画像認識,信号処理,セマンティック-リレーションシップ分類タスクに関する実験では,深部CNN,DS層,期待されるユーティリティ層の組み合わせにより,分類精度の向上が図られている。
論文 参考訳(メタデータ) (2021-03-25T01:29:05Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - A Deep Neural Network for Audio Classification with a Classifier
Attention Mechanism [2.3204178451683264]
我々は、Audio-based Convolutional Neural Network (CAB-CNN)と呼ばれる新しいアテンションベースニューラルネットワークアーキテクチャを導入する。
このアルゴリズムは、単純な分類器のリストと、セレクタとしてアテンションメカニズムからなる、新しく設計されたアーキテクチャを使用する。
我々のアルゴリズムは最先端のアルゴリズムと比較して、選択したテストスコアに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2020-06-14T21:29:44Z) - Ensemble Wrapper Subsampling for Deep Modulation Classification [70.91089216571035]
受信した無線信号のサブサンプリングは、ハードウェア要件と信号処理アルゴリズムの計算コストを緩和するために重要である。
本稿では,無線通信システムにおけるディープラーニングを用いた自動変調分類のためのサブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-10T06:11:13Z) - Decoding Imagined Speech using Wavelet Features and Deep Neural Networks [2.4063592468412267]
本稿では, 深層ニューラルネットワークを用いた予測音声の分類手法を提案する。
提案手法では、脳の特定の領域にのみEEGチャネルを用いて分類し、それぞれのチャネルから特徴ベクトルを導出する。
提案したアーキテクチャとデータ処理のアプローチにより,57.15%の平均分類精度が向上し,最先端の結果よりも約35%向上した。
論文 参考訳(メタデータ) (2020-03-19T00:36:19Z) - PointAugment: an Auto-Augmentation Framework for Point Cloud
Classification [105.27565020399]
PointAugmentは、分類ネットワークをトレーニングする際のデータの多様性を強化するために、ポイントクラウドサンプルを自動的に最適化し、拡張する新しい自動拡張フレームワークである。
学習可能な点増分関数を、形状変換と点変位で定式化し、さらに、追加サンプルを採用するために、損失関数を慎重に設計する。
論文 参考訳(メタデータ) (2020-02-25T14:25:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。