論文の概要: TC-SKNet with GridMask for Low-complexity Classification of Acoustic
scene
- arxiv url: http://arxiv.org/abs/2210.02287v1
- Date: Wed, 5 Oct 2022 14:24:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 15:36:32.856681
- Title: TC-SKNet with GridMask for Low-complexity Classification of Acoustic
scene
- Title(参考訳): グリッドマスクを用いたTC-SKNetによる音響シーンの低複雑さ分類
- Authors: Luyuan Xie, Yan Zhong, Lin Yang, Zhaoyu Yan, Zhonghai Wu, Junjie Wang
- Abstract要約: 我々は、Selective Kernel NetworkとTemporal-Convolution(TC-SKNet)を組み合わせて、畳み込みカーネルの受容場を調整する。
GridMaskは、生データや機能領域の一部をマスキングすることで、データ拡張戦略である。
その結果、ピーク精度59.87%のTC-SKNetはSOTAと同値であるが、パラメータは20.9Kのみである。
- 参考スコア(独自算出の注目度): 15.010375209235924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolution neural networks (CNNs) have good performance in low-complexity
classification tasks such as acoustic scene classifications (ASCs). However,
there are few studies on the relationship between the length of target speech
and the size of the convolution kernels. In this paper, we combine Selective
Kernel Network with Temporal-Convolution (TC-SKNet) to adjust the receptive
field of convolution kernels to solve the problem of variable length of target
voice while keeping low-complexity. GridMask is a data augmentation strategy by
masking part of the raw data or feature area. It can enhance the generalization
of the model as the role of dropout. In our experiments, the performance gain
brought by GridMask is stronger than spectrum augmentation in ASCs. Finally, we
adopt AutoML to search best structure of TC-SKNet and hyperparameters of
GridMask for improving the classification performance. As a result, a peak
accuracy of 59.87% TC-SKNet is equivalent to that of SOTA, but the parameters
only use 20.9 K.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、音響シーン分類(ASC)のような低複雑さな分類タスクにおいて優れた性能を有する。
しかし、ターゲット音声の長さと畳み込みカーネルのサイズとの関係についてはほとんど研究されていない。
本稿では,選択型カーネルネットワークと時相畳み込み(tc-sknet)を組み合わせて畳み込みカーネルの受容場を調整し,低複雑さを維持しつつ目標音声の可変長問題を解く。
GridMaskは、生データや機能領域の一部をマスキングすることで、データ拡張戦略である。
モデルの一般化をドロップアウトの役割として強化することができる。
我々の実験では、GridMaskによる性能向上は、ASCのスペクトル増大よりも強い。
最後に,tc-sknet の最適構造と gridmask のハイパーパラメータを検索し,分類性能を向上させるために automl を採用する。
その結果、ピーク精度59.87%のTC-SKNetはSOTAと同値であるが、パラメータは20.9Kのみである。
関連論文リスト
- Scale-Invariant Object Detection by Adaptive Convolution with Unified Global-Local Context [3.061662434597098]
本稿では,効率的なDetモデルに基づくSAC-Net(Switchable Atrous Convolutional Network)を用いたオブジェクト検出モデルを提案する。
提案したSAC-Netは,マルチスケールオブジェクト検出タスクの性能向上を実現するために,低レベル機能と高レベル機能の両方の利点をカプセル化している。
ベンチマークデータセットを用いた実験により,提案したSAC-Netは,精度の点で最先端モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-09-17T10:08:37Z) - MPruner: Optimizing Neural Network Size with CKA-Based Mutual Information Pruning [7.262751938473306]
プルーニング(Pruning)は、ニューラルネットワークのサイズを減らし、数学的に精度の保存を保証している、よく確立されたテクニックである。
我々は,ベクトル類似性により相互情報を活用する新しいプルーニングアルゴリズムMPrunerを開発した。
MPrunerはCNNとトランスフォーマーベースのモデルで最大50%のパラメータとメモリ使用量の削減を実現した。
論文 参考訳(メタデータ) (2024-08-24T05:54:47Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - Feature Selection using Sparse Adaptive Bottleneck Centroid-Encoder [1.2487990897680423]
2つ以上のクラスで識別される特徴を決定するために,新しい非線形モデル SABCE (Sparse Adaptive Bottleneckid-Encoder) を導入する。
このアルゴリズムは、高次元生物学的、画像、音声、加速度センサデータなど、様々な実世界のデータセットに適用される。
論文 参考訳(メタデータ) (2023-06-07T21:37:21Z) - Sharpend Cosine Similarity based Neural Network for Hyperspectral Image
Classification [0.456877715768796]
ハイパースペクトル画像分類(HSIC)は、高いクラス間類似度と変動性、ネスト領域、重なり合いのため難しい課題である。
2D畳み込みニューラルネットワーク(CNN)は有効なネットワークとして登場したが、3D CNNは正確な分類のため、より良い代替手段である。
本稿では,HSICのためのニューラルネットワークにおける畳み込みの代替として,SCS(Sharpened Cosine similarity)の概念を紹介する。
論文 参考訳(メタデータ) (2023-05-26T07:04:00Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - MSCFNet: A Lightweight Network With Multi-Scale Context Fusion for
Real-Time Semantic Segmentation [27.232578592161673]
マルチスケールコンテキスト融合スキーム(MSCFNet)を用いた新しい軽量ネットワークを考案する。
提案されたMSCFNetは1.15Mパラメータのみを含み、71.9%のMean IoUを実現し、1つのTitan XP GPU構成で50 FPS以上で実行できる。
論文 参考訳(メタデータ) (2021-03-24T08:28:26Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - Improved Mask-CTC for Non-Autoregressive End-to-End ASR [49.192579824582694]
マスク予測とコネクショナリズム時間分類(CTC)に基づく最近提案されたエンドツーエンドASRシステム
我々は、最近提案されたConformerアーキテクチャを用いて、ネットワークアーキテクチャを強化することを提案する。
次に、部分的ターゲットシーケンスの長さを予測する補助的目的を導入することによって、新しいトレーニングと復号化手法を提案する。
論文 参考訳(メタデータ) (2020-10-26T01:22:35Z) - ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。
我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文 参考訳(メタデータ) (2020-09-04T20:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。