論文の概要: Music Boundary Detection using Convolutional Neural Networks: A
comparative analysis of combined input features
- arxiv url: http://arxiv.org/abs/2008.07527v2
- Date: Wed, 1 Dec 2021 15:01:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 04:37:04.906813
- Title: Music Boundary Detection using Convolutional Neural Networks: A
comparative analysis of combined input features
- Title(参考訳): 畳み込みニューラルネットワークを用いた音楽境界検出:複合入力特徴の比較分析
- Authors: Carlos Hernandez-Olivan, Jose R. Beltran, David Diaz-Guerra
- Abstract要約: 楽曲の構造の分析は人工知能の課題であり続けている。
異なるプーリング戦略から計算した入力を比較することで、これらの入力を前処理する一般的な方法を確立する。
また、楽曲の構造の限界を抽出する最も効率的な方法を確立するために、CNNに届ける最も効果的な入力の組み合わせを確立する。
- 参考スコア(独自算出の注目度): 2.123556187010023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The analysis of the structure of musical pieces is a task that remains a
challenge for Artificial Intelligence, especially in the field of Deep
Learning. It requires prior identification of structural boundaries of the
music pieces. This structural boundary analysis has recently been studied with
unsupervised methods and \textit{end-to-end} techniques such as Convolutional
Neural Networks (CNN) using Mel-Scaled Log-magnitude Spectograms features
(MLS), Self-Similarity Matrices (SSM) or Self-Similarity Lag Matrices (SSLM) as
inputs and trained with human annotations. Several studies have been published
divided into unsupervised and \textit{end-to-end} methods in which
pre-processing is done in different ways, using different distance metrics and
audio characteristics, so a generalized pre-processing method to compute model
inputs is missing. The objective of this work is to establish a general method
of pre-processing these inputs by comparing the inputs calculated from
different pooling strategies, distance metrics and audio characteristics, also
taking into account the computing time to obtain them. We also establish the
most effective combination of inputs to be delivered to the CNN in order to
establish the most efficient way to extract the limits of the structure of the
music pieces. With an adequate combination of input matrices and pooling
strategies we obtain a measurement accuracy $F_1$ of 0.411 that outperforms the
current one obtained under the same conditions.
- Abstract(参考訳): 楽曲の構造の分析は、人工知能、特にディープラーニングの分野では依然として課題となっている課題である。
楽曲の構造的境界を事前に識別する必要がある。
この構造境界解析は,Mel-Scaled Log-magnitude Spectograms features (MLS), Self-Similarity Matrices (SSM) あるいは Self-Similarity Lag Matrices (SSLM) を入力として,人間のアノテーションで訓練した Convolutional Neural Networks (CNN) のような,教師なしの手法と \textit{end-to-end} 手法で最近研究されている。
いくつかの研究は、異なる距離メトリクスとオーディオ特性を用いて、異なる方法で前処理を行う教師なしおよび\textit{end-to-end}メソッドに分割されているため、モデル入力を計算するための一般的な前処理方法が欠落している。
本研究の目的は、様々なプール戦略、距離メトリクス、音響特性から算出した入力を比較し、計算時間を考慮して、これらの入力を前処理する一般的な方法を確立することである。
また、楽曲の構造の限界を抽出する最も効率的な方法を確立するために、cnnに配信される入力の最も効果的な組み合わせを確立する。
入力行列とプーリング戦略を適切に組み合わせることで、同じ条件下で得られた現在の値を上回る精度のF_1$0.411を得る。
関連論文リスト
- A Top-down Graph-based Tool for Modeling Classical Semantic Maps: A Crosslinguistic Case Study of Supplementary Adverbs [50.982315553104975]
セマンティックマップモデル(SMM)は、言語横断的なインスタンスや形式からネットワークのような概念空間を構築する。
ほとんどのSMMは、ボトムアップ手順を使用して、人間の専門家によって手動で構築される。
本稿では,概念空間とSMMをトップダウンで自動生成するグラフベースの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-02T12:06:41Z) - PREMAP: A Unifying PREiMage APproximation Framework for Neural Networks [30.701422594374456]
本稿では,任意の多面体出力集合のアンダー・アンド・オーバー近似を生成する事前抽象化のためのフレームワークを提案する。
提案手法を様々なタスクで評価し,高インプット次元画像分類タスクに対する効率とスケーラビリティの大幅な向上を示す。
論文 参考訳(メタデータ) (2024-08-17T17:24:47Z) - Automatic Input Feature Relevance via Spectral Neural Networks [0.9236074230806581]
本稿では,ディープニューラルネットワークにおける入力成分の相対的重要性を推定する新しい手法を提案する。
これは最適化プロセスのスペクトル再パラメータ化を活用することで達成される。
この手法は、合成データと実データの両方に対してうまく挑戦されている。
論文 参考訳(メタデータ) (2024-06-03T10:39:12Z) - Discrete Neural Algorithmic Reasoning [18.497863598167257]
本稿では,有限状態の組合せとして,ニューラル推論器に実行軌跡の維持を強制することを提案する。
アルゴリズムの状態遷移の監督で訓練されたモデルでは、元のアルゴリズムと完全に整合することができる。
論文 参考訳(メタデータ) (2024-02-18T16:03:04Z) - Incrementally-Computable Neural Networks: Efficient Inference for
Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。
インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。
本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-27T16:30:27Z) - Task-Oriented Sensing, Computation, and Communication Integration for
Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。
推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文 参考訳(メタデータ) (2022-07-03T06:57:07Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Data-Driven Symbol Detection via Model-Based Machine Learning [117.58188185409904]
機械学習(ML)とモデルベースアルゴリズムを組み合わせた,検出設計のシンボル化を目的とした,データ駆動型フレームワークについてレビューする。
このハイブリッドアプローチでは、よく知られたチャネルモデルに基づくアルゴリズムをMLベースのアルゴリズムで拡張し、チャネルモデル依存性を除去する。
提案手法は, 正確なチャネル入出力統計関係を知らなくても, モデルベースアルゴリズムのほぼ最適性能が得られることを示す。
論文 参考訳(メタデータ) (2020-02-14T06:58:27Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。