論文の概要: TC-SKNet with GridMask for Low-complexity Classification of Acoustic
scene
- arxiv url: http://arxiv.org/abs/2210.02287v1
- Date: Wed, 5 Oct 2022 14:24:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 15:36:32.856681
- Title: TC-SKNet with GridMask for Low-complexity Classification of Acoustic
scene
- Title(参考訳): グリッドマスクを用いたTC-SKNetによる音響シーンの低複雑さ分類
- Authors: Luyuan Xie, Yan Zhong, Lin Yang, Zhaoyu Yan, Zhonghai Wu, Junjie Wang
- Abstract要約: 我々は、Selective Kernel NetworkとTemporal-Convolution(TC-SKNet)を組み合わせて、畳み込みカーネルの受容場を調整する。
GridMaskは、生データや機能領域の一部をマスキングすることで、データ拡張戦略である。
その結果、ピーク精度59.87%のTC-SKNetはSOTAと同値であるが、パラメータは20.9Kのみである。
- 参考スコア(独自算出の注目度): 15.010375209235924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolution neural networks (CNNs) have good performance in low-complexity
classification tasks such as acoustic scene classifications (ASCs). However,
there are few studies on the relationship between the length of target speech
and the size of the convolution kernels. In this paper, we combine Selective
Kernel Network with Temporal-Convolution (TC-SKNet) to adjust the receptive
field of convolution kernels to solve the problem of variable length of target
voice while keeping low-complexity. GridMask is a data augmentation strategy by
masking part of the raw data or feature area. It can enhance the generalization
of the model as the role of dropout. In our experiments, the performance gain
brought by GridMask is stronger than spectrum augmentation in ASCs. Finally, we
adopt AutoML to search best structure of TC-SKNet and hyperparameters of
GridMask for improving the classification performance. As a result, a peak
accuracy of 59.87% TC-SKNet is equivalent to that of SOTA, but the parameters
only use 20.9 K.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、音響シーン分類(ASC)のような低複雑さな分類タスクにおいて優れた性能を有する。
しかし、ターゲット音声の長さと畳み込みカーネルのサイズとの関係についてはほとんど研究されていない。
本稿では,選択型カーネルネットワークと時相畳み込み(tc-sknet)を組み合わせて畳み込みカーネルの受容場を調整し,低複雑さを維持しつつ目標音声の可変長問題を解く。
GridMaskは、生データや機能領域の一部をマスキングすることで、データ拡張戦略である。
モデルの一般化をドロップアウトの役割として強化することができる。
我々の実験では、GridMaskによる性能向上は、ASCのスペクトル増大よりも強い。
最後に,tc-sknet の最適構造と gridmask のハイパーパラメータを検索し,分類性能を向上させるために automl を採用する。
その結果、ピーク精度59.87%のTC-SKNetはSOTAと同値であるが、パラメータは20.9Kのみである。
関連論文リスト
- Feature Selection using Sparse Adaptive Bottleneck Centroid-Encoder [1.2487990897680423]
2つ以上のクラスで識別される特徴を決定するために,新しい非線形モデル SABCE (Sparse Adaptive Bottleneckid-Encoder) を導入する。
このアルゴリズムは、高次元生物学的、画像、音声、加速度センサデータなど、様々な実世界のデータセットに適用される。
論文 参考訳(メタデータ) (2023-06-07T21:37:21Z) - Sharpend Cosine Similarity based Neural Network for Hyperspectral Image
Classification [0.456877715768796]
ハイパースペクトル画像分類(HSIC)は、高いクラス間類似度と変動性、ネスト領域、重なり合いのため難しい課題である。
2D畳み込みニューラルネットワーク(CNN)は有効なネットワークとして登場したが、3D CNNは正確な分類のため、より良い代替手段である。
本稿では,HSICのためのニューラルネットワークにおける畳み込みの代替として,SCS(Sharpened Cosine similarity)の概念を紹介する。
論文 参考訳(メタデータ) (2023-05-26T07:04:00Z) - RFC-Net: Learning High Resolution Global Features for Medical Image
Segmentation on a Computational Budget [4.712700480142554]
本稿では,圧縮された計算空間における高解像度グローバルな特徴を学習するReceptive Field Chain Network (RFC-Net)を提案する。
提案実験により,RFC-Net が Kvasir および CVC-ClinicDB のPolyp セグメンテーションのベンチマークにおいて,最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-02-13T06:52:47Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - K-Net: Towards Unified Image Segmentation [78.32096542571257]
K-Netと名付けられたこのフレームワークは、学習可能なカーネルのグループによってインスタンスとセマンティックカテゴリの両方を一貫して分割する。
K-Netは双方向マッチングでエンドツーエンドでトレーニングすることができ、そのトレーニングと推論は自然にNMSフリーで、ボックスフリーである。
論文 参考訳(メタデータ) (2021-06-28T17:18:21Z) - MSCFNet: A Lightweight Network With Multi-Scale Context Fusion for
Real-Time Semantic Segmentation [27.232578592161673]
マルチスケールコンテキスト融合スキーム(MSCFNet)を用いた新しい軽量ネットワークを考案する。
提案されたMSCFNetは1.15Mパラメータのみを含み、71.9%のMean IoUを実現し、1つのTitan XP GPU構成で50 FPS以上で実行できる。
論文 参考訳(メタデータ) (2021-03-24T08:28:26Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - Improved Mask-CTC for Non-Autoregressive End-to-End ASR [49.192579824582694]
マスク予測とコネクショナリズム時間分類(CTC)に基づく最近提案されたエンドツーエンドASRシステム
我々は、最近提案されたConformerアーキテクチャを用いて、ネットワークアーキテクチャを強化することを提案する。
次に、部分的ターゲットシーケンスの長さを予測する補助的目的を導入することによって、新しいトレーニングと復号化手法を提案する。
論文 参考訳(メタデータ) (2020-10-26T01:22:35Z) - ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。
我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文 参考訳(メタデータ) (2020-09-04T20:41:47Z) - Convolutional Neural Network Training with Distributed K-FAC [14.2773046188145]
Kronecker-factored Approximate Curvature (K-FAC)はFisher Information Matrixの近似として最近提案されている。
本稿では、大規模畳み込みニューラルネットワーク(CNN)トレーニングにおけるスケーラブルなK-FAC設計とその適用性について検討する。
論文 参考訳(メタデータ) (2020-07-01T22:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。