論文の概要: MuSLCAT: Multi-Scale Multi-Level Convolutional Attention Transformer for
Discriminative Music Modeling on Raw Waveforms
- arxiv url: http://arxiv.org/abs/2104.02309v1
- Date: Tue, 6 Apr 2021 06:17:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 19:53:49.386330
- Title: MuSLCAT: Multi-Scale Multi-Level Convolutional Attention Transformer for
Discriminative Music Modeling on Raw Waveforms
- Title(参考訳): MuSLCAT:生波形の識別音楽モデリングのためのマルチスケール多層畳み込み注意変換器
- Authors: Kai Middlebrook, Shyam Sudhakaran, David Guy Brizan
- Abstract要約: 複雑な音楽タグの堅牢な表現を学ぶための新しいアーキテクチャであるMuSLCAT(Multi-scale and Multi-level Convolutional Attention Transformer)を紹介します。
また,マルチスケール・マルチレベル・コンボリューショナル・アテンション・ネットワークのための MuSLCAN と呼ばれる MuSLCAT の軽量版も導入した。
MuSLCAT と MuSLCAN はどちらも、最先端の波形ベースのモデルと比較して、競争力のある結果が得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we aim to improve the expressive capacity of waveform-based
discriminative music networks by modeling both sequential (temporal) and
hierarchical information in an efficient end-to-end architecture. We present
MuSLCAT, or Multi-scale and Multi-level Convolutional Attention Transformer, a
novel architecture for learning robust representations of complex music tags
directly from raw waveform recordings. We also introduce a lightweight variant
of MuSLCAT called MuSLCAN, short for Multi-scale and Multi-level Convolutional
Attention Network. Both MuSLCAT and MuSLCAN model features from multiple scales
and levels by integrating a frontend-backend architecture. The frontend targets
different frequency ranges while modeling long-range dependencies and
multi-level interactions by using two convolutional attention networks with
attention-augmented convolution (AAC) blocks. The backend dynamically
recalibrates multi-scale and level features extracted from the frontend by
incorporating self-attention. The difference between MuSLCAT and MuSLCAN is
their backend components. MuSLCAT's backend is a modified version of BERT.
While MuSLCAN's is a simple AAC block. We validate the proposed MuSLCAT and
MuSLCAN architectures by comparing them to state-of-the-art networks on four
benchmark datasets for music tagging and genre recognition. Our experiments
show that MuSLCAT and MuSLCAN consistently yield competitive results when
compared to state-of-the-art waveform-based models yet require considerably
fewer parameters.
- Abstract(参考訳): 本研究では,時系列情報と階層情報の両方を効率的なエンドツーエンドアーキテクチャでモデル化し,波形に基づく識別的音楽ネットワークの表現能力を向上させることを目的とする。
波形記録から直接複雑な音楽タグのロバスト表現を学ぶための新しいアーキテクチャであるmuslcat(multi-scale and multi-level convolutional attention transformer)を提案する。
また,マルチスケール・マルチレベル・コンボリューショナル・アテンション・ネットワークのための MuSLCAN と呼ばれる MuSLCAT の軽量版も導入した。
MuSLCAT と MuSLCAN モデルは、フロントエンドバックエンドアーキテクチャを統合することで、複数のスケールとレベルから特徴付けられる。
フロントエンドは2つのコンボリューション型アテンションネットワークとアテンション拡張コンボリューション(AAC)ブロックを用いて、長距離依存とマルチレベル相互作用をモデル化しながら、異なる周波数範囲をターゲットにしている。
バックエンドは、セルフアテンションを組み込んで、フロントエンドから抽出したマルチスケールとレベルの特徴を動的に再分類する。
MuSLCAT と MuSLCAN の違いは、そのバックエンドコンポーネントである。
MuSLCATのバックエンドはBERTの修正版である。
MuSLCAN は単純な AAC ブロックである。
提案した MuSLCAT および MuSLCAN アーキテクチャを,音楽タグ付けとジャンル認識のための4つのベンチマークデータセット上で,最先端のネットワークと比較することによって検証する。
実験の結果, MuSLCAT と MuSLCAN は, 最先端の波形モデルと比較すると, 比較的少ないパラメータで競合する結果が得られることがわかった。
関連論文リスト
- P-MSDiff: Parallel Multi-Scale Diffusion for Remote Sensing Image Segmentation [8.46409964236009]
拡散モデルとマルチスケール機能はセグメンテーションタスクにおいて不可欠な要素である。
並列なマルチスケール分岐を持つ拡散モデルとして知られるセマンティックセグメンテーションの新しいモデルを提案する。
我々のモデルは、UAVidとVayhingen Buildingのデータセットに基づいて、J1測定値に基づいて、優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-05-30T19:40:08Z) - MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection [5.37935922811333]
MambaMixerは、トークンとチャネル間の二重選択機構を使用する、データ依存の重みを持つ新しいアーキテクチャである。
概念実証として,Vision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) を設計した。
論文 参考訳(メタデータ) (2024-03-29T00:05:13Z) - SAPT: A Shared Attention Framework for Parameter-Efficient Continual Learning of Large Language Models [71.78800549517298]
大規模言語モデル(LLM)を動的世界に展開するには,継続的な学習(CL)能力が不可欠である。
既存の方法は、パラメータ効率チューニング(PET)ブロックを用いてタスク固有の知識を取得するための学習モジュールと、テスト入力に対して対応するものを選択するための選択モジュールを考案する。
本稿では,共有注意学習と選択モジュールを通じてPET学習と選択を調整するための新しい共有注意フレームワーク(SAPT)を提案する。
論文 参考訳(メタデータ) (2024-01-16T11:45:03Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers [78.85346970193518]
Megabyteは、100万バイトを超えるシーケンスのエンドツーエンドで微分可能なモデリングを可能にするマルチスケールデコーダアーキテクチャである。
実験によると、Megabyteはバイトレベルのモデルで、長い文脈言語モデリングのサブワードモデルと競合することを可能にする。
その結果、トークン化のない自己回帰配列を大規模にモデル化できる可能性が確立された。
論文 参考訳(メタデータ) (2023-05-12T00:55:41Z) - Zorro: the masked multimodal transformer [68.99684436029884]
ゾロ(Zorro)は、トランスフォーマー内の各モードからの入力をどのようにルーティングするかを制御するためにマスクを使用するテクニックである。
対照的な事前学習により、Zorroはマルチモーダルタスクの最も関連性の高いベンチマークで最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-01-23T17:51:39Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Encoder-Decoder Based Convolutional Neural Networks with
Multi-Scale-Aware Modules for Crowd Counting [6.893512627479196]
正確かつ効率的な群集カウントのための2つの修正ニューラルネットワークを提案する。
最初のモデルはM-SFANetと名付けられ、アラス空間ピラミッドプール(ASPP)とコンテキスト認識モジュール(CAN)が付属している。
第2のモデルはM-SegNetと呼ばれ、SFANetの双線形アップサンプリングをSegNetで使用される最大アンプールに置き換えることで生成される。
論文 参考訳(メタデータ) (2020-03-12T03:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。