論文の概要: Audio classification with Dilated Convolution with Learnable Spacings
- arxiv url: http://arxiv.org/abs/2309.13972v1
- Date: Mon, 25 Sep 2023 09:09:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 16:22:33.011946
- Title: Audio classification with Dilated Convolution with Learnable Spacings
- Title(参考訳): 学習可能な間隔による拡張畳み込みによる音声分類
- Authors: Ismail Khalfaoui-Hassani, Timoth\'ee Masquelier and Thomas Pellegrini
- Abstract要約: 学習可能な間隔による拡張畳み込み(DCLS)は、バックプロパゲーションによるトレーニングを通じてカーネル要素の位置を学習する最近の畳み込み法である。
ここでは、AudioSet分類ベンチマークを用いて、DCLSはオーディオタグ付けにも有用であることを示す。
- 参考スコア(独自算出の注目度): 10.89964981012741
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dilated convolution with learnable spacings (DCLS) is a recent convolution
method in which the positions of the kernel elements are learned throughout
training by backpropagation. Its interest has recently been demonstrated in
computer vision (ImageNet classification and downstream tasks). Here we show
that DCLS is also useful for audio tagging using the AudioSet classification
benchmark. We took two state-of-the-art convolutional architectures using
depthwise separable convolutions (DSC), ConvNeXt and ConvFormer, and a hybrid
one using attention in addition, FastViT, and drop-in replaced all the DSC
layers by DCLS ones. This significantly improved the mean average precision
(mAP) with the three architectures without increasing the number of parameters
and with only a low cost on the throughput. The method code is based on PyTorch
and is available at https://github.com/K-H-Ismail/DCLS-Audio
- Abstract(参考訳): 学習可能な間隔による拡張畳み込み(DCLS)は、バックプロパゲーションによるトレーニングを通じてカーネル要素の位置を学習する最近の畳み込み法である。
その関心は最近コンピュータビジョン(イメージネット分類と下流タスク)で実証されている。
本稿では,dcl が audioset classification benchmark を用いた音声タグ付けにも有効であることを示す。
我々は,Deepwise Separable Convolutions (DSC), ConvNeXt, ConvFormerの2つの最先端の畳み込みアーキテクチャと,FastViTとDrop-inを併用したハイブリッドアーキテクチャをDCLSで置き換えた。
これにより、3つのアーキテクチャで平均平均精度(mAP)が大幅に向上し、パラメータの数が増加せず、スループットのコストも低くなった。
メソッドコードはPyTorchをベースにしており、https://github.com/K-H-Ismail/DCLS-Audioで利用可能である。
関連論文リスト
- 3D-Convolution Guided Spectral-Spatial Transformer for Hyperspectral Image Classification [12.729885732069926]
視覚変換器(ViT)は畳み込みニューラルネットワーク(CNN)よりも有望な分類性能を示した
ViTはシーケンシャルなデータを出力するが、CNNのようなスペクトル空間情報を抽出することはできない。
HSI分類のための3次元畳み込み誘導スペクトル空間変換器(3D-ConvSST)を提案する。
論文 参考訳(メタデータ) (2024-04-20T03:39:54Z) - PosCUDA: Position based Convolution for Unlearnable Audio Datasets [7.4768400786925175]
PosCUDAは、学習不能なオーディオデータセットを作成するための位置ベースの畳み込みである。
実験により,PosCUDAは元の音声データセットの品質を維持しつつ,未学習性を達成できることを実証的に示す。
論文 参考訳(メタデータ) (2024-01-04T08:39:49Z) - Dilated Convolution with Learnable Spacings: beyond bilinear
interpolation [10.89964981012741]
Dilated Convolution with Learnable Spacingsは拡張畳み込みのバリエーションとして提案されている。
非整数位置は勾配によって処理される。
メソッドコードはPyTorchに基づいている。
論文 参考訳(メタデータ) (2023-06-01T15:42:08Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - Focal Sparse Convolutional Networks for 3D Object Detection [121.45950754511021]
我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。
焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。
スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:34:10Z) - Dilated convolution with learnable spacings [6.6389732792316005]
CNNは視覚変換器と競合するために受容野(RF)を必要とする。
RFは、畳み込みカーネルのサイズを増やすことで簡単に拡大できる。
トレーニング可能なパラメータの数は、2Dの場合、カーネルのサイズと4倍にスケールするが、急速に禁止される。
本稿では,パラメータ数を増大させることなくRFサイズを増大させる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-07T14:54:24Z) - RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for
Image Recognition [123.59890802196797]
画像認識のための多層パーセプトロン型ニューラルネットワーク構築ブロックであるRepMLPを提案する。
トレーニング中にRepMLP内に畳み込み層を構築し,それをFCにマージして推論を行う。
従来のCNNにRepMLPを挿入することで、ImageNetでは1.8%の精度、顔認識では2.9%、FLOPの低いCityscapeでは2.3%のmIoUを改善します。
論文 参考訳(メタデータ) (2021-05-05T06:17:40Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - End-To-End Dilated Variational Autoencoder with Bottleneck
Discriminative Loss for Sound Morphing -- A Preliminary Study [0.0]
本稿では,音のモーフィングのための終端から終端までの変分オートエンコーダ(VAE)について予備的検討を行う。
ダイレーション層(DC-VAE)を持つVAEと、通常の畳み込み層(CC-VAE)を持つVAEの2種類を比較した。
論文 参考訳(メタデータ) (2020-11-19T09:47:13Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。