論文の概要: MS-SincResNet: Joint learning of 1D and 2D kernels using multi-scale
SincNet and ResNet for music genre classification
- arxiv url: http://arxiv.org/abs/2109.08910v1
- Date: Sat, 18 Sep 2021 11:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 11:28:12.617677
- Title: MS-SincResNet: Joint learning of 1D and 2D kernels using multi-scale
SincNet and ResNet for music genre classification
- Title(参考訳): MS-SincResNet:音楽ジャンル分類のためのマルチスケールSincNetとResNetを用いた1Dおよび2Dカーネルの共同学習
- Authors: Pei-Chun Chang, Yong-Sheng Chen and Chang-Hsing Lee
- Abstract要約: 我々は音楽ジャンル分類のための新しいエンドツーエンド畳み込みニューラルネットワークMS-SincResNetを提案する。
MS-SincResNetは最初の畳み込み層として1DのマルチスケールSincNetを2D ResNetに追加する。
実験の結果,提案したMS-SincResNetはベースラインのSincNetよりも優れていた。
- 参考スコア(独自算出の注目度): 5.917065505179232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we proposed a new end-to-end convolutional neural network,
called MS-SincResNet, for music genre classification. MS-SincResNet appends 1D
multi-scale SincNet (MS-SincNet) to 2D ResNet as the first convolutional layer
in an attempt to jointly learn 1D kernels and 2D kernels during the training
stage. First, an input music signal is divided into a number of fixed-duration
(3 seconds in this study) music clips, and the raw waveform of each music clip
is fed into 1D MS-SincNet filter learning module to obtain three-channel 2D
representations. The learned representations carry rich timbral, harmonic, and
percussive characteristics comparing with spectrograms, harmonic spectrograms,
percussive spectrograms and Mel-spectrograms. ResNet is then used to extract
discriminative embeddings from these 2D representations. The spatial pyramid
pooling (SPP) module is further used to enhance the feature discriminability,
in terms of both time and frequency aspects, to obtain the classification label
of each music clip. Finally, the voting strategy is applied to summarize the
classification results from all 3-second music clips. In our experimental
results, we demonstrate that the proposed MS-SincResNet outperforms the
baseline SincNet and many well-known hand-crafted features. Considering
individual 2D representation, MS-SincResNet also yields competitive results
with the state-of-the-art methods on the GTZAN dataset and the ISMIR2004
dataset. The code is available at https://github.com/PeiChunChang/MS-SincResNet
- Abstract(参考訳): 本研究では,音楽ジャンル分類のための新しいエンドツーエンド畳み込みニューラルネットワークms-sincresnetを提案する。
MS-SincResNetはトレーニング段階で1Dカーネルと2Dカーネルを共同学習するために、2D ResNetに1DのマルチスケールSincNet(MS-SincNet)を付加する。
まず、入力された音楽信号が複数の固定デュレーション(3秒)音楽クリップに分割され、各音楽クリップの生波形が1D MS-SincNetフィルタ学習モジュールに入力され、3チャンネル2D表現が得られる。
学習された表現は、スペクトログラム、ハーモニックスペクトログラム、パーカッシブスペクトログラム、メルスペクトログラムと比較して、豊富な音節、高調波、打楽器特性を持っている。
ResNetは、これらの2D表現から識別的な埋め込みを抽出するために使用される。
空間ピラミッドプーリング(spp)モジュールはさらに、時間面と周波数面の両方の観点から特徴判別性を高め、各音楽クリップの分類ラベルを得るために使用される。
最後に、投票戦略を適用し、全3秒音楽クリップの分類結果を要約する。
実験の結果,提案するms-sincresnetは,sincnetのベースラインを上回っており,多くの手作り機能を備えている。
個々の2D表現を考慮すると、MS-SincResNetはGTZANデータセットとISMIR2004データセットの最先端メソッドと競合する結果を得る。
コードはhttps://github.com/PeiChunChang/MS-SincResNetで入手できる。
関連論文リスト
- CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP [55.864132158596206]
Contrastive Language-Image Pre-Training (CLIP) は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。
私たちは,CLIP知識が3Dシーン理解にどう役立つか,最初の試みを行う。
筆者らは,CLIPの知識を2次元画像テキスト事前学習モデルから3次元ポイント・クラウド・ネットワークに転送するフレームワークであるCLIP2Sceneを提案する。
論文 参考訳(メタデータ) (2023-01-12T10:42:39Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z) - MNet: Rethinking 2D/3D Networks for Anisotropic Medical Image
Segmentation [13.432274819028505]
学習を通して空間表現間のバランスをとるために,新しいメッシュネットワーク(MNet)を提案する。
総合的な実験は4つのパブリックデータセット(CT&MR)で実施される
論文 参考訳(メタデータ) (2022-05-10T12:39:08Z) - MFSNet: A Multi Focus Segmentation Network for Skin Lesion Segmentation [28.656853454251426]
本研究は,皮膚病変の制御のための人工知能(AI)フレームワークを開発する。
MFSNetは3つの公開データセットで評価され、最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-03-27T16:10:40Z) - BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video
Person Re-Identification [86.73532136686438]
映像人物再識別(reID)のための効率的な時空間表現法を提案する。
空間相補性モデリングのための双方向相補性ネットワーク(BiCnet)を提案する。
BiCnet-TKSは、約50%の計算量で最先端の性能を発揮する。
論文 参考訳(メタデータ) (2021-04-30T06:44:34Z) - Learning Geometry-Disentangled Representation for Complementary
Understanding of 3D Object Point Cloud [50.56461318879761]
3次元画像処理のためのGDANet(Geometry-Disentangled Attention Network)を提案する。
GDANetは、点雲を3Dオブジェクトの輪郭と平らな部分に切り離し、それぞれ鋭い変化成分と穏やかな変化成分で表される。
3Dオブジェクトの分類とセグメンテーションベンチマークの実験は、GDANetがより少ないパラメータで最先端の処理を実現していることを示している。
論文 参考訳(メタデータ) (2020-12-20T13:35:00Z) - MACU-Net for Semantic Segmentation of Fine-Resolution Remotely Sensed
Images [11.047174552053626]
MACU-Netは、マルチスケールのスキップ接続と非対称畳み込みベースのU-Netで、微細解像度のリモートセンシング画像を提供する。
本設計では,(1)低レベル・高レベルの特徴写像に含まれる意味的特徴と,(2)非対称な畳み込みブロックは,標準畳み込み層の特徴表現と特徴抽出能力を強化する。
2つのリモートセンシングデータセットで行った実験では、提案したMACU-NetがU-Net、U-NetPPL、U-Net 3+、その他のベンチマークアプローチを超越していることが示されている。
論文 参考訳(メタデータ) (2020-07-26T08:56:47Z) - Class-wise Dynamic Graph Convolution for Semantic Segmentation [63.08061813253613]
本稿では,情報を適応的に伝達するクラスワイド動的グラフ畳み込み (CDGC) モジュールを提案する。
また、CDGCモジュールと基本セグメンテーションネットワークを含む2つの主要部分からなるCDGCNet(Class-wise Dynamic Graph Convolution Network)についても紹介する。
我々は,Cityscapes,PASCAL VOC 2012,COCO Stuffの3つの一般的なセマンティックセマンティックセマンティクスベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2020-07-19T15:26:50Z) - 3D-MiniNet: Learning a 2D Representation from Point Clouds for Fast and
Efficient 3D LIDAR Semantic Segmentation [9.581605678437032]
3D-MiniNetは、3Dと2Dの学習層を組み合わせたLIDARセマンティックセグメンテーションの新しいアプローチである。
まず,3次元データから局所的およびグローバル的情報を抽出する新しいプロジェクションにより,原点から2次元表現を学習する。
これらの2Dセマンティックラベルは、3D空間に再プロジェクションされ、後処理モジュールを通じて拡張される。
論文 参考訳(メタデータ) (2020-02-25T14:33:50Z) - Depth Based Semantic Scene Completion with Position Importance Aware
Loss [52.06051681324545]
PALNetはセマンティックシーン補完のための新しいハイブリッドネットワークである。
詳細な深度情報を用いて,多段階から2次元特徴と3次元特徴の両方を抽出する。
オブジェクトのバウンダリやシーンの隅といった重要な詳細を復元することは有益である。
論文 参考訳(メタデータ) (2020-01-29T07:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。